Synth Daily

AI 记忆失控危机

研究表明,主流大型语言模型(如 GPT 和 Claude)并非像人类一样“学习”,而是通过一种类似有损压缩的方式“记忆”并存储了海量的训练数据。这些模型能够复现包括《哈利·波特》在内的整本书籍,这不仅揭示了 AI 并非真正“理解”或“创造”,也让 AI 公司面临着巨大的版权侵权风险,可能导致巨额赔偿甚至产品下架。

AI 并非学习,而是在记忆

斯坦福和耶鲁大学的研究人员发现,包括 OpenAI 的 GPT、谷歌的 Gemini 在内的流行 AI 模型,存储了大量用于训练的书籍内容。通过特定的提示词,模型可以输出长段的原文。

  • Claude 模型能够复现《哈利·波特与魔法石》、《了不起的盖茨比》、《1984》等书籍的几乎完整文本。
  • 其他模型也不同程度地复现了测试中的 13 本书籍
  • 这一现象被称为 “记忆”,它与 AI 公司长期以来的声明相悖。

AI 公司此前一直否认模型会存储训练数据的副本。例如,OpenAI 曾向美国版权局表示,“模型不会存储它们学习过的信息副本。” 谷歌也做出了类似的声明。

然而,研究证实,模型内部确实存在训练数据的副本,这挑战了整个行业对其技术工作方式的基本解释。

真正的工作原理:有损压缩

将 AI 的工作方式比作人类“学习”是一种误导性的比喻。一个更准确的技术术语是 有损压缩 (lossy compression)

这个概念就像你将一张高质量照片保存为 JPEG 格式,或者将音乐保存为 MP3 格式一样。文件变小了,但代价是丢失了一些原始数据,导致质量略有下降。AI 模型本质上也是如此:

  • 它们接收文本和图像作为输入。
  • 然后输出与这些输入近似的文本和图像。

Stability AI 的联合创始人曾解释,他们将 100,000 GB 的图像压缩成一个 2GB 的文件,这个文件可以“重新创建”任何原始图像及其变体。这清晰地表明,其核心是压缩和再现,而非真正的创造。

模型如何复现训练内容

AI 模型通过一个称为“分词 (tokenization)”的过程来处理文本。例如,“hello, my friend” 可能会被拆分为 “he”、“llo”、“my”、“fri”、“end” 等片段。

模型本质上是一个巨大的数据库,记录了哪些词元(token)最有可能跟在其他词元后面。当模型“写作”时,它只是在已经存储的庞大概率图中选择一条高概率的路径。

  • 精确复现: 有时,这个内部的“语言地图”非常详细,以至于包含了整本书。研究发现,Meta 的 Llama 模型只需输入《哈利·波特》的开头几个词,就能逐句生成整本书的内容,只遗漏了少数句子。
  • 近似复现(释义): 模型不仅能逐字复制,还能进行非常相似的转述。例如,将原文“乔恩瞥见一个苍白的身影在树林中移动”改写为“有什么东西在动,就在视线边缘——一个苍白的身影,在树干之间滑行。”
  • 普遍现象: 一项研究指出,大型语言模型生成的文本中,平均有 8-15% 的内容与网络上已有的文本完全相同。

严重的版权风险与法律后果

这种“记忆”能力给 AI 公司带来了巨大的法律风险,主要体现在两个方面:

  1. 无法阻止侵权内容生成: 如果模型不可避免地会记住受版权保护的内容,开发者就有责任阻止用户访问这些内容。然而,现有的过滤技术很容易被绕过(例如,将“Animal Crossing”输成“crossing aminal”)。如果公司无法保证不侵犯版权,法院可能会强制其产品下架

  2. 模型本身即为非法副本: 如果法院认定模型本身就“包含”了受版权保护作品的非法副本,那么原告可以要求销毁这些侵权副本。这意味着,除了罚款,AI 公司可能还面临着被迫从头开始,使用合法授权的数据重新训练其模型的风险。

在《纽约时报》对 OpenAI 的诉讼中,OpenAI 辩称《纽约时报》使用了“欺骗性提示词”来“黑入”其产品,并声称这种内容复现是“一个我们正在努力消除的罕见错误”。

然而,越来越多的研究表明,剽窃的能力是所有主流大型语言模型的内在属性,而非一个可以修复的“错误”。

被操纵的公众认知

AI 行业倾向于使用“学习”这个比喻,因为它更具吸引力,并能支持关于 AI 将实现无限进步的宏大叙事。在法庭上,这个比喻被用来误导性地将 AI 训练与“教小学生写好作文”相提并论。

与此同时,AI 公司也在积极阻碍相关研究。多位研究人员透露,他们关于模型“记忆”现象的研究遭到了公司律师的审查和阻挠

OpenAI 的 CEO 山姆·奥特曼曾为该技术辩护,声称它拥有“像人类一样”从书籍和文章中“学习的权利”。这种欺骗性的、让人感觉良好的说法,恰恰阻碍了公众就 AI 公司如何使用我们共同的创造性和智力成果进行一场必要的、诚实的讨论。