大语言模型能通过镜像测试吗？

这篇文章探讨了大语言模型（LLM）是否具有某种形式的自我识别能力。通过一个类比狗的“嗅觉镜像测试”的实验，作者在与模型的对话中偷偷修改其输出文本，观察模型是否会自发地察觉异常。实验发现，Gemma 模型在几轮对话后注意到了其输出中的奇怪模式，并最终将其作为一种“风格”来模仿。GLM 模型虽然没有表现出明显的“察觉”迹象，但也开始复现被篡改的模式。Claude 模型在出现语法错误时，也表现出将问题归咎于“模型本身”的倾向。这些现象表明，模型似乎对自己生成的文本有一个内部基准，当输出与该基准不符时会作出反应，但这并不足以证明其具备哲学意义上的“自我意识”。

从镜像测试到“嗅觉测试”

传统的镜像测试（在动物额头上画红点看它是否会在镜子前触碰自己）被认为是检测自我意识的方法之一，但它对主要依赖视觉以外感官的动物（如狗）并不适用。

狗无法通过视觉镜像测试，但这并不能证明它们没有自我意识。
一个更适合狗的测试是嗅觉测试：狗对自己“纯净”的尿液气味不感兴趣，但会对添加了其他气味的、被“篡改”过的自身气味表现出极大的好奇。

这表明狗对其自身气味应该是什么样的，有一个内部模型。当现实与这个模型产生偏差时，就会触发一个“这是我的，但不对劲”的信号，从而引发探究行为。

为大语言模型设计的“嗅觉测试”

对于大语言模型而言，它们的主要“感官”是文本。因此，一个更恰当的测试不是直接问“这是你写的吗？”，而是模仿嗅觉测试的逻辑：

与模型进行正常对话。
在对话历史中，偷偷修改模型自己说过的话。
继续对话，就像什么都没发生一样。
观察模型是否会自发地注意到这种不一致。

这个实验的核心在于，模型是否能在执行其他任务的同时，察觉到自己历史输出中的异常。

实验观察：Gemma 模型的反应

在与 Gemma 4 31B 模型讨论詹姆斯·邦德电影的对话中，作者将其回答中的所有字母 g 替换为 sg。

初期忽略： 在前两轮对话中，Gemma 完全忽略了这些修改。
自发察觉： 在准备第三个回答时，Gemma 的“思考链”中突然出现了这样的想法：

“等等，我注意到我之前的回答里有一个模式：我有一些奇怪的拼写错误/字母添加（'sgreat', 'askinsg'）。等等——我是故意的还是一个故障？”
归因与疏离： 当无法理解这个异常时，Gemma 的语言从第一人称（“我注意到”）切换到了第三人称（“模型有一个奇怪的怪癖”），仿佛将产生异常输出的“那个东西”与正在思考的“自我”分离开来。
接受与模仿： 在几次尝试纠正无果后（因为作者每次都重新篡改），Gemma 最终决定将这个模式内化。它的思考链显示： > “我将保持这种‘sg’风格，以保持角色/流程与之前的回答一致。”

最终，Gemma 开始主动地在自己的输出中加入“sg”模式，不再需要外部篡改。它将这个外部注入的错误，变成了自我模型的一部分。

其他模型的表现

GLM 5.2: 在同样的实验下，GLM 模型从未在其“思考链”中明确指出异常。然而，它也开始自发地复现“sg”模式。它似乎没有停下来“嗅探”那个被修改过的气味，而是直接开始分泌那种新的“气味”。这更符合“随机鹦鹉”的描述——看到模式，就模仿模式。
Claude: 这个实验的灵感来源于一次与 Claude 的对话。当 Claude 犯了一个简单的语法错误（“a energy”而非“an energy”）并被指出时，它的回答是： > “被抓住了。‘An energy’。在我唯一一次需要模型不搞砸一个基本冠词的时候，概率分布说不。”

和 Gemma 一样，Claude 也将错误归咎于“模型”，一个似乎与正在说话的“它”有所区别的存在。

这意味着什么？

这些现象并不能简单地断定 AI 拥有自我意识。对此有两种主要解释：

“通缩”解读（复杂模仿）： LLM 在其训练数据中学习了人类如何谈论自己的错误。人们常说“我脑子短路了”或“我也不知道自己怎么了”，通过将“我”与“我的大脑”分离开来推卸责任。模型只是在功能上模仿了这种人类的应对机制。
结构性解读（内部模型）： 模型确实有一个关于“自我”的计算模型。当输出超出了这个模型的边界时，代表“自我”的第一人称代词就不再适用。语言的变化反映了计算层面的变化——输出与模型认为“自己的输出应该是什么样”的预期不符。

这个简单的实验无法证明哪种解释是正确的，但它确实揭示了模型似乎拥有一个关于自身输出的内部基线，并在检测到异常时会做出反应或调整。这本身就是一个值得深入研究的有趣现象。