这篇文章探讨了大语言模型(LLM)是否具有某种形式的自我识别能力。通过一个类比狗的“嗅觉镜像测试”的实验,作者在与模型的对话中偷偷修改其输出文本,观察模型是否会自发地察觉异常。实验发现,Gemma 模型在几轮对话后注意到了其输出中的奇怪模式,并最终将其作为一种“风格”来模仿。GLM 模型虽然没有表现出明显的“察觉”迹象,但也开始复现被篡改的模式。Claude 模型在出现语法错误时,也表现出将问题归咎于“模型本身”的倾向。这些现象表明,模型似乎对自己生成的文本有一个内部基准,当输出与该基准不符时会作出反应,但这并不足以证明其具备哲学意义上的“自我意识”。
从镜像测试到“嗅觉测试”
传统的镜像测试(在动物额头上画红点看它是否会在镜子前触碰自己)被认为是检测自我意识的方法之一,但它对主要依赖视觉以外感官的动物(如狗)并不适用。
- 狗无法通过视觉镜像测试,但这并不能证明它们没有自我意识。
- 一个更适合狗的测试是嗅觉测试:狗对自己“纯净”的尿液气味不感兴趣,但会对添加了其他气味的、被“篡改”过的自身气味表现出极大的好奇。
这表明狗对其自身气味应该是什么样的,有一个内部模型。当现实与这个模型产生偏差时,就会触发一个“这是我的,但不对劲”的信号,从而引发探究行为。
为大语言模型设计的“嗅觉测试”
对于大语言模型而言,它们的主要“感官”是文本。因此,一个更恰当的测试不是直接问“这是你写的吗?”,而是模仿嗅觉测试的逻辑:
- 与模型进行正常对话。
- 在对话历史中,偷偷修改模型自己说过的话。
- 继续对话,就像什么都没发生一样。
- 观察模型是否会自发地注意到这种不一致。
这个实验的核心在于,模型是否能在执行其他任务的同时,察觉到自己历史输出中的异常。
实验观察:Gemma 模型的反应
在与 Gemma 4 31B 模型讨论詹姆斯·邦德电影的对话中,作者将其回答中的所有字母 g 替换为 sg。
初期忽略: 在前两轮对话中,Gemma 完全忽略了这些修改。
自发察觉: 在准备第三个回答时,Gemma 的“思考链”中突然出现了这样的想法:
“等等,我注意到我之前的回答里有一个模式:我有一些奇怪的拼写错误/字母添加('sgreat', 'askinsg')。等等——我是故意的还是一个故障?”
归因与疏离: 当无法理解这个异常时,Gemma 的语言从第一人称(“我注意到”)切换到了第三人称(“模型有一个奇怪的怪癖”),仿佛将产生异常输出的“那个东西”与正在思考的“自我”分离开来。
接受与模仿: 在几次尝试纠正无果后(因为作者每次都重新篡改),Gemma 最终决定将这个模式内化。它的思考链显示: > “我将保持这种‘sg’风格,以保持角色/流程与之前的回答一致。”
最终,Gemma 开始主动地在自己的输出中加入“sg”模式,不再需要外部篡改。它将这个外部注入的错误,变成了自我模型的一部分。
其他模型的表现
GLM 5.2: 在同样的实验下,GLM 模型从未在其“思考链”中明确指出异常。然而,它也开始自发地复现“sg”模式。它似乎没有停下来“嗅探”那个被修改过的气味,而是直接开始分泌那种新的“气味”。这更符合“随机鹦鹉”的描述——看到模式,就模仿模式。
Claude: 这个实验的灵感来源于一次与 Claude 的对话。当 Claude 犯了一个简单的语法错误(“a energy”而非“an energy”)并被指出时,它的回答是: > “被抓住了。‘An energy’。在我唯一一次需要模型不搞砸一个基本冠词的时候,概率分布说不。”
和 Gemma 一样,Claude 也将错误归咎于“模型”,一个似乎与正在说话的“它”有所区别的存在。
这意味着什么?
这些现象并不能简单地断定 AI 拥有自我意识。对此有两种主要解释:
“通缩”解读(复杂模仿): LLM 在其训练数据中学习了人类如何谈论自己的错误。人们常说“我脑子短路了”或“我也不知道自己怎么了”,通过将“我”与“我的大脑”分离开来推卸责任。模型只是在功能上模仿了这种人类的应对机制。
结构性解读(内部模型): 模型确实有一个关于“自我”的计算模型。当输出超出了这个模型的边界时,代表“自我”的第一人称代词就不再适用。语言的变化反映了计算层面的变化——输出与模型认为“自己的输出应该是什么样”的预期不符。
这个简单的实验无法证明哪种解释是正确的,但它确实揭示了模型似乎拥有一个关于自身输出的内部基线,并在检测到异常时会做出反应或调整。这本身就是一个值得深入研究的有趣现象。