Synth Daily

埃利亚斯·索恩的离奇案件:AI 聊天机器人痴迷的“虚构男人”

研究发现,不同公司的大型语言模型(AI)会反复生成一个名叫“埃利亚斯·索恩”的虚构人物。这一现象揭示了当前 AI 创作的一个核心问题:由于安全训练和数据源的限制,AI 的输出内容正变得越来越单一和缺乏原创性。埃利亚斯·索恩并非真实存在,他的反复出现是 AI 系统内在缺陷的一个标志,表明其创造力实际上相当浅薄。

一个不存在的“名人”

无论你问哪家公司的 AI 聊天机器人,它们似乎都对同一个名叫埃利亚斯·索恩(Elias Thorne)的男人赞不绝口。根据不同 AI 的描述,他是一名灯塔看守人、钟表匠、图书管理员或探险家,是无数故事中的主角。

你可能会认为他是地球上最有影响力的人物之一。但他并不存在。

数据揭示的模式

康奈尔大学的研究人员分析了大约 20,000 个由主流 AI 模型(包括 OpenAI、Anthropic 和 Google)生成的故事,发现了一些惊人的规律。

  • 少数几个名字和职业反复出现,如 埃利亚斯 (Elias)玛拉 (Mara)灯塔看守人钟表匠
  • 这些特定的词汇在 88% 的故事中都有出现。
  • 其中,“灯塔看守人埃利亚斯”这一组合在将近三分之二的故事里都出现过。

研究人员最初以为 AI 是从某本书或网络文化中学习到这个名字的,但调查后并未找到任何证据。

为什么是埃利亚斯·索恩?

理论认为,这个现象是 AI 安全性和版权规避训练的副作用。

  • 规避版权风险:为了避免因使用受版权保护的角色(如迪士尼或任天堂的角色)而引发法律纠纷,AI 公司会训练模型避开这些内容。
  • 内容池变浅:这种“安全”训练导致 AI 可供借鉴的创作资源池变得 “更浅”,能用的素材更少。
  • 数据“近亲繁殖”:更关键的是,现代 AI 模型常常使用由早期 AI 系统生成的数据进行训练。这导致它们只是在反复咀嚼和重组旧的、单一的想法。

“…现代 AI 模型常常使用由早期 AI 系统生成的数据进行训练,本质上只是一遍又一遍地重复同样的老旧想法…”

一旦“埃利亚斯·索恩”这个角色被某个模型创造出来,他就会在不同模型的迭代中被不断地“继承”下去。

AI 创造力的警示信号

埃利亚斯·索恩这个名字已经“泄露”到公共互联网上,出现在亚马逊上由 AI 生成的劣质书籍和音乐中,以及 YouTube 视频和一些可疑的健康指南里。

我们通常认为 AI 能获取的信息是浩瀚无垠的,但事实恰恰相反。

AI 聊天机器人从中提取信息的池子看起来应该是巨大的、无限的。但它实际上相当浅薄。

没有新鲜的人类输入,AI 的输出很快就会变得陈腐。埃利亚斯·索恩这个奇怪的系统故障,正是一个有力的象征,它揭示了聊天机器人的创作可以变得多么 空洞和毫无原创性