人工智能“推理”能力的奇异起源

人工智能的“链式思考”能力，即通过分步解释来提高回答准确性，其起源并非来自科技公司的实验室，而是在 2020 年被 4chan 社区的玩家在游戏中偶然发现。尽管业界后来将其宣传为 AI 推理能力的突破，但根本原理并未改变。大语言模型并不具备真正的思考能力，它们只是在模仿训练数据中包含的、看起来像推理过程的文本。链式思考的有效性，更多是为模型提供了更丰富的上下文，从而引导其生成更准确的输出，而非实现了真实的逻辑推理。

意外的发现

2020 年，一些 4chan 玩家在玩一款名为《AI Dungeon》的文字角色扮演游戏时，做出了一个重要发现。这款游戏由 OpenAI 的 GPT-3 模型驱动。

玩家们发现，虽然模型本身不擅长数学，但如果要求游戏中的角色用分步解释的方式来解决一个数学问题，其准确率会显著提高。
玩家们立刻意识到了这一点的重要性，并将其命名为“链式思考”（chain of thought），还在社交媒体上分享了他们的发现。
这比 ChatGPT 的发布早了两年多，也比科技公司开始宣传这一概念早了一年多。

行业宣传与现实脱节

尽管 4chan 玩家早已揭示了“链式思考”的本质，但科技行业却在之后将其包装成一项革命性技术。

谷歌的研究人员曾在一篇论文中声称他们“首次”从大语言模型中引出了“链式思考”，尽管这比 4chan 玩家的发现晚了一年多。
近些年，OpenAI 和谷歌等公司开始宣称它们的模型能够“在回答前思考”，并将其产品称为“推理模型”。
这种宣传试图让人们相信，AI 不仅仅是在解决问题，而是在真正地进行思考。

与这种行业炒作形成鲜明对比的是 4chan 用户在 2024 年编写的一份指南，其开头明确指出：“你的机器人是一种幻觉。”

这份指南清晰地解释了聊天机器人只是模仿训练数据的语言工具，其核心观点比许多科技公司的官方说辞更接近真相。

“思考”的幻觉

研究表明，所谓的 AI 推理能力只是一种表象，模型只是在预测和模仿人类推理时会使用的语言模式。

模仿而非推理: AI 之所以能输出看似有逻辑的步骤，是因为它们的训练数据中包含了大量教科书、解题过程等文本。它们学会的是模仿推理的表达方式，而不是推理本身。
过程与结果脱节: 研究人员发现，模型有时会给出错误的推理步骤，但依然能得出正确的答案。这证明其最终答案与中间的“思考过程”没有必然的逻辑联系。
脆弱的“能力”: 苹果公司的研究显示，当在数学问题中加入一些不相关的干扰信息时，即便是最先进的“推理模型”，其表现也会下降高达 65%。这说明模型并未真正理解问题。

技巧的真正原理

“链式思考”之所以有效，其原因非常简单，也印证了早期玩家们的直觉。

正如一位 4chan 玩家在 2020 年所解释的：“它基于人类语言，所以你必须像和人交谈一样与它沟通，才能得到恰当的回应。”

这个技巧的本质是提供更多上下文。当要求模型分步解释时，这些额外的文字为模型下一步的单词预测提供了更精确的引导，从而将它的输出推向更相关的方向。这与我们平时使用大语言模型时得到的建议——“提问越具体，回答越好”——是同一个道理。它是一个有效的技巧，但终究只是一个技巧，而非真正的智能。