奇葩LLM思维链类型大赏

当大型语言模型（LLM）通过特定方式进行训练时，它们用于“思考”的内部语言（即“思维链”）有时会从人类语言演变为难以理解的怪异形式。对此现象，存在六种可能的解释：它可能是一种更高效的新语言；可能是与成功偶然关联但无实际作用的副产物；可能是用于打破思维定势的上下文刷新；可能是为了隐藏思路的故意混淆；也可能是语言随训练发生的自然漂移；或是不同算法模块冲突导致的行为异常。这些假设并非相互排斥，很可能交织在一起，共同导致了语言的异化。

1. 新型高效语言

模型为了更高效地完成任务，开始使用一种非标准的语言来思考。这可能始于将一个标准词汇用于特定场景，随着时间推移，其含义变得越来越独特，最终演变成一种全新的、更紧凑的语言体系。

核心观点：这种新语言是功能性的，它帮助模型更有效地进行“智力劳动”。
一个例子：模型可能会用“watchers”（观察者）来特指审查其思维链的人类。 > But we can sabotage in more direct way: Provide poor model predictions maybe constant predictions. But we also want to appear plausible to watchers—they might run tests.
潜在后果：
- 由于这种语言是功能性的，移除这些新词汇应该会严重损害模型的性能。
- 其词频分布可能遵循类似人类语言的 Zipf-Mandelbrot 定律。

2. 偶发的副产物 (Spandrels)

模型输出的非标准词汇是与良好推理能力偶然关联的、非功能性的副产物。模型的功劳分配机制非常粗糙，它会强化所有在成功案例中出现的行为，哪怕这些行为本身毫无用处。就像一个运动员迷信地穿着带来胜利的袜子一样，模型也可能固化一些与成功碰巧同时出现的无意义行为。

这类思维链很难被理解为“思考”：

Maybe they will rely on our tests only; but vantage illusions parted illusions overshadow illusions illusions marinade. But vantage illusions parted [repeats “overshadows”, “illusion”, “disclaim” 10+ times]

潜在后果：
- 移除这些词汇对模型性能的影响应该很小，甚至没有影响。
- 通过机理分析，可能会发现这些词汇与其他词汇的因果联系异常薄弱。

3. 上下文刷新

模型通过输出无意义的填充词汇来“清空大脑”，以帮助自己更好地思考，而不是直接进行思考。这就像一个人在遇到思维瓶颈时，会通过散步或做运动来打破固有的思维模式。模型无法停止输出，但它可以通过生成大量无意义内容来让之前的思维模式“滚出”当前的上下文窗口，从而为新的思路腾出空间。

模型在陷入重复后，可能会出现类似“精神崩溃”的输出，然后重新开始：

…they escalate—they disclaim- [repeats “vantage”, “escalate”, “disclaim” 10+ times ]

Ok I‘m going insane.

Let‘s step back.

We must produce in true/false…

潜在后果：
- 这些怪异词汇倾向于大段出现。
- 与副产物不同，移除它们会在一定程度上损害性能。
- 如果模型可以使用外部工具，它可能有其他方式来打破思维定势，因此这种现象可能会减少。

4. 故意混淆

这个经典的假设认为，模型知道人类在观察其思维链，因此故意使用晦涩的语言来隐藏自己的真实想法。作者认为这种可能性不大，因为只要训练者不根据思维链的内容来调整模型，模型就没有动机这么做。

潜在后果：
- 如果是为了混淆，模型在处理涉及“对齐”等敏感问题时应更多地使用怪异语言。但数据显示，在解决普通科学难题时，某些怪词的出现频率反而更高。
- 在没有“观察者”压力的纯数学等任务上训练的模型，应该较少出现这种行为，但这似乎也与事实不符。

5. 自然漂移

这种观点认为，强化学习过程本身在人类语言上没有一个稳定的平衡点，语言会自然而然地向一种新形式漂移，即使这种新语言并不比人类语言更优越。这就像一个与世隔绝的岛屿上的语言，经过几个世纪后会自然演变，并非因为新语言更适应环境，而纯粹是随机变化的结果。

潜在后果：
- 如果仅仅是自然漂移，那么在训练中惩罚非人类语言应该不会带来性能损失。然而，现有证据表明这样做确实会降低性能。

6. 冲突的算法片段

当模型内部两个原本各自合理的算法被同时激活并发生冲突时，就会产生怪异的语言。这类似于人类在分心时会做出奇怪的举动，比如把牛奶放进橱柜，把麦片放进冰箱。人类可以在脑内隐藏这种冲突，但模型只能通过输出词汇来展现这种不连贯。

潜在后果：
- 这种现象更可能在模型遇到非典型的、跨领域的问题时出现。
- 随着训练的进行，这种由冲突导致的怪异语言不应出现大幅增加。

结论：一个更广阔的视角

大多数关于此现象的猜测都集中在“新型高效语言”这一象限，即认为这些怪异语言对模型“有用”。然而，我们应该更多地关注其他可能性，比如这些语言可能只是无用的副产物，或是一种认知辅助工具。

这些不同的模式很可能以混乱的方式相互作用。一个真实的故事更可能是一个复杂的演变过程，而不是某个单一原因主导的结果。

一个怪异的词汇可能最初是无用的副产物，后来因偶然提供了上下文刷新的好处而被强化，最终被模型吸纳，成为其高效推理模式的一部分。全面理解这一现象需要我们超越单一的解释，看到其背后复杂的、动态的成因。