埃利亚斯·索恩的离奇案件：AI 聊天机器人痴迷的“虚构男人”

研究发现，不同公司的大型语言模型（AI）会反复生成一个名叫“埃利亚斯·索恩”的虚构人物。这一现象揭示了当前 AI 创作的一个核心问题：由于安全训练和数据源的限制，AI 的输出内容正变得越来越单一和缺乏原创性。埃利亚斯·索恩并非真实存在，他的反复出现是 AI 系统内在缺陷的一个标志，表明其创造力实际上相当浅薄。

一个不存在的“名人”

无论你问哪家公司的 AI 聊天机器人，它们似乎都对同一个名叫埃利亚斯·索恩（Elias Thorne）的男人赞不绝口。根据不同 AI 的描述，他是一名灯塔看守人、钟表匠、图书管理员或探险家，是无数故事中的主角。

你可能会认为他是地球上最有影响力的人物之一。但他并不存在。

数据揭示的模式

康奈尔大学的研究人员分析了大约 20,000 个由主流 AI 模型（包括 OpenAI、Anthropic 和 Google）生成的故事，发现了一些惊人的规律。

少数几个名字和职业反复出现，如 埃利亚斯 (Elias)、玛拉 (Mara)、灯塔看守人和钟表匠。
这些特定的词汇在 88% 的故事中都有出现。
其中，“灯塔看守人埃利亚斯”这一组合在将近三分之二的故事里都出现过。

研究人员最初以为 AI 是从某本书或网络文化中学习到这个名字的，但调查后并未找到任何证据。

为什么是埃利亚斯·索恩？

理论认为，这个现象是 AI 安全性和版权规避训练的副作用。

规避版权风险：为了避免因使用受版权保护的角色（如迪士尼或任天堂的角色）而引发法律纠纷，AI 公司会训练模型避开这些内容。
内容池变浅：这种“安全”训练导致 AI 可供借鉴的创作资源池变得 “更浅”，能用的素材更少。
数据“近亲繁殖”：更关键的是，现代 AI 模型常常使用由早期 AI 系统生成的数据进行训练。这导致它们只是在反复咀嚼和重组旧的、单一的想法。

“…现代 AI 模型常常使用由早期 AI 系统生成的数据进行训练，本质上只是一遍又一遍地重复同样的老旧想法…”

一旦“埃利亚斯·索恩”这个角色被某个模型创造出来，他就会在不同模型的迭代中被不断地“继承”下去。

AI 创造力的警示信号

埃利亚斯·索恩这个名字已经“泄露”到公共互联网上，出现在亚马逊上由 AI 生成的劣质书籍和音乐中，以及 YouTube 视频和一些可疑的健康指南里。

我们通常认为 AI 能获取的信息是浩瀚无垠的，但事实恰恰相反。

AI 聊天机器人从中提取信息的池子看起来应该是巨大的、无限的。但它实际上相当浅薄。

没有新鲜的人类输入，AI 的输出很快就会变得陈腐。埃利亚斯·索恩这个奇怪的系统故障，正是一个有力的象征，它揭示了聊天机器人的创作可以变得多么 空洞和毫无原创性。