GPL 传染到 AI 模型的理论现状

关于从训练代码中的 GPL 许可证是否会“传染”至 AI 模型本身的争议,至今仍未有定论。尽管这一理论已非主流,但正在进行的法律诉讼,如美国的 Copilot 集体诉讼案和德国的 GEMA 诉 OpenAI 案,使相关议题依然悬而未决。法院对模型内部的“记忆”是否构成版权复制持开放态度,使得许可证违规的追诉路径依然存在。然而,从版权法、GPL 文本、技术实现和政策影响等多个层面,都有强有力的论点反对将模型视为 GPL 的衍生品。开源社区内部也未形成统一意见,最终结论是,该理论虽未被法律彻底否定,但面临巨大挑战,未来需要在司法、立法和社区层面继续探索,以平衡技术创新与软件自由。

悬而未决的法律争议

GPL 许可证传播理论的核心观点是:如果 AI 模型使用 GPL 代码进行训练,那么模型本身就构成了该代码的“衍生作品”,因此在分发模型时,必须遵守 GPL 的开源要求。尽管这一观点在今天已不流行,但以下两个正在进行的诉讼案表明,该理论并未被完全否定。

  • Doe v. GitHub (Copilot 集体诉讼案):

      • 该诉讼指控 GitHub Copilot 在训练和输出代码时,无视了包括 GPL 在内的多种开源许可证条款,如署名要求和衍生作品需以相同许可证发布等。
      • 尽管许多索赔被驳回,但“违反开源许可证”这一核心诉求依然在审理中。法院认为,原告有足够的理由寻求禁令,以阻止 Copilot 在未遵守许可证的情况下复制代码。
      • 此案表明,法院并未完全拒绝“使用开源代码必须遵守其许可证义务”的逻辑,这为许可证传播理论保留了法律上的可能性。
  • GEMA v. OpenAI (德国音乐版权案):

      • 此案虽不涉及 GPL,但其判决具有重要的理论意义。德国慕尼黑法院裁定,如果模型内部“记忆”了受版权保护的作品(如歌词)并能轻易复现,那么这种“记忆”本身就构成版权法意义上的“复制”。
      • 法院认为,即使作品被编码为模型参数(权重),只要能通过简单提示还原,就等同于在模型内部存储了一份副本。

这一判决开创性地承认,“模型可以包含训练数据的复制品”。如果这一逻辑成立,那么当训练数据是 GPL 代码时,包含该代码“记忆”的模型就可能被视为 GPL 代码的复制品或衍生品,从而触发 GPL 条款。

日本法律下的处理方式

日本法律对此问题的处理提供了另一个视角,主要围绕《著作权法》第 30-4 条展开。

    • 原则上合法: 日本法律普遍认为,以“信息分析”为目的的机器学习训练行为是合法的,无需版权方许可。这为 AI 模型训练提供了广泛的法律支持。

    • 例外情况: 如果训练的目的是为了“享受作品所表达的思想或情感”,例如通过过拟合(Overfitting)让模型专门记忆并复现特定作品,则不适用该豁免条款。

  • 对模型的看法:

      • 通常情况下,训练出的模型不被视为训练数据的“复制品”,因为它是一个通用的统计工具。
      • 但如果模型能高频率地生成与训练数据高度相似的产物,则可能被认定为侵权工具。

总而言之,日本的法律现状可以概括为“版权层面安全,合同层面空白”。虽然训练行为本身受法律保护,但这并不意味着可以无视许可证(作为一种合同)的规定。关于 GPL 是否会传播至模型,日本法律尚未给出明确指导。

反对许可证传播理论的主要论点

尽管存在法律上的不确定性,但从多个层面来看,GPL 传播理论面临着强有力的反对意见。

  • 版权法论点:

      • AI 模型是统计抽象,而非人类可感知的“衍生作品”。从模型权重中无法直接感知原始代码的创造性表达。
      • 将整个模型认定为侵权品,仅仅因为它可能偶然生成与训练数据相似的输出,是不切实际的,也难以证明其依赖关系。
  • GPL 文本论点:

      • GPL 的设计初衷是针对软件的修改、包含和链接,并未预见到 AI 模型这种形态。
      • GPLv3 要求提供“首选修改形式”的源代码。对于 AI 模型,什么是其“源代码”?是权重文件、训练脚本,还是整个庞大的训练数据集?这在定义上极其困难。
      • 强行应用 GPL 可能导致要求披露全部训练数据的极端结论,这既不现实,也偏离了 GPL 旨在让用户能够修改和构建软件的初衷。
  • 技术论点:

      • 大型语言模型并非数据库,它们不按原样存储代码。输出是基于概率分布的生成结果。
      • 将模型因包含极小部分数据记忆而被整体认定为“复制品”,是一种过度概括,不符合技术现实。
  • 实践与政策论点:

      • 如果 GPL 传播理论成立,一个用数百万个不同许可证的代码训练出的模型,将面临遵守所有许可证的荒谬处境,这在实践中是行不通的。
      • 这最终可能导致企业为了规避风险而主动排除 GPL 代码作为训练数据,反而损害了 GPL 生态系统的价值和影响力,可谓“好心办了坏事”。
      • 目前,没有任何国家的主流政策明确支持将训练数据的许可证强制应用于模型本身。

开源组织(OSI 与 FSF)的立场

开源社区内部对此也存在不同看法,主要代表是 OSI 和 FSF。

  • OSI (开源促进会):

      • 立场更为务实。其《开源 AI 定义》要求提供关于训练数据的充分信息以保证透明度和可复现性,但不强制要求发布训练数据本身。
      • OSI 倾向于通过信息透明和开放模型来实现自由,而不是通过强制传播现有许可证。
  • FSF (自由软件基金会):

      • 立场更为理想化。FSF 认为,要使一个 AI 应用成为真正的“自由软件”,其训练代码和训练数据都必须是自由的
      • 然而,FSF 也认识到,这在当前 GPL 框架下无法强制执行,因此他们正在着手制定新的标准,而不是声称现有 GPL 天然适用于模型。

结论:一个尚未消失的理论

GPL 传播至 AI 模型的理论目前处于一个尴尬的境地:虽然声音不如以往响亮,但并未在法律上彻底消亡

当前的诉讼案表明,法律的天平可能会向追究模型提供者责任的方向倾斜,但距离“强制模型整体适用 GPL”这一结论仍有巨大鸿沟。更重要的是,强制应用旧的许可证框架可能会给开源生态带来意想不到的负面影响。

真正的关键问题在于:我们应如何平衡软件自由与 AI 领域的自由?

与其盲目地将旧的理念套用在新技术上,不如思考如何通过更现实的路径,如推广开放模型、建立数据集清理标准和自动化许可证合规工具,来最大化 AI 时代的自由。这一探索过程本身,正是自由软件精神在 AI 时代的新挑战。