Meta 因使用盗版书籍训练其 Llama 模型而陷入法律纠纷。尽管法院此前裁定“训练模型”本身属于合理使用,但 Meta 通过 BitTorrent 协议下载并自动上传这些书籍的行为,被作者方指控为直接侵权。Meta 对此提出辩护:在 BitTorrent 网络中,上传是下载过程中不可避免的技术特征,因此这种伴随性的分发也应被视为合理使用的一部分。此案的最终结果将对 AI 行业如何获取和使用大规模训练数据集产生深远影响。
争议焦点:技术机制与版权侵权
Meta 承认通过 Anna’s Archive 等“影子图书馆”获取书籍,并使用了 BitTorrent 协议。争议在于该协议的工作原理:
- 自动分享机制: BitTorrent 在下载文件的同时,会自动向其他用户上传已下载的部分。
- 直接侵权指控: 原告作者认为,这种主动向他人分发版权书籍的行为构成了直接版权侵权。
- Meta 的立场: 这种上传并非 Meta 的主动选择,而是技术的必然结果。
Meta 的核心辩护逻辑
Meta 的律师认为,既然训练 AI 本身是合法的“转换性使用”,那么实现这一目标所必需的技术手段也应受到保护:
- 效率与唯一性: Meta 称 BitTorrent 是获取海量数据的最有效方式,且某些数据集仅能通过此渠道批量获取。
- 合法的延伸: 如果下载是为了“合理使用”的训练目的,那么作为下载过程一部分的上传行为,也应共享这一法律性质。
Meta 使用 BitTorrent 是因为它是获取数据集更高效、可靠的手段……这在本质上是下载过程的一部分,旨在促进 Meta 的转换性合理使用目的。
程序争议与作者的反击
原告作者对 Meta 在诉讼后期才提出这一辩护理由表示强烈不满:
- 程序违规: 作者方律师致信法官,指责 Meta 试图在证据交换截止日期后绕过程序增加新的辩护理由。
- 蓄意隐瞒: 他们指出,Meta 至少从 2024 年 11 月起就知晓上传指控,却一直未曾提及“合理使用”这一辩护点。
对现实影响的评估
Meta 试图通过淡化实际损害来支撑其论点。在证词中,几位知名作者承认:
- 无侵权输出: 他们无法证明 Meta 的模型输出了与原著重复的内容。
- 市场损害轻微: Meta 认为,既然作者无法证明 AI 导致了销量损失或直接抄袭,那么这起诉讼更多是在挑战训练过程本身,而这一过程此前已被判为合法。
Meta 进一步将此案上升到国家战略高度,声称对 AI 的投资有助于确立美国在全球的领先地位,案件的走向将关乎国家竞争优势。