人工智能的“链式思考”能力,即通过分步解释来提高回答准确性,其起源并非来自科技公司的实验室,而是在 2020 年被 4chan 社区的玩家在游戏中偶然发现。尽管业界后来将其宣传为 AI 推理能力的突破,但根本原理并未改变。大语言模型并不具备真正的思考能力,它们只是在模仿训练数据中包含的、看起来像推理过程的文本。链式思考的有效性,更多是为模型提供了更丰富的上下文,从而引导其生成更准确的输出,而非实现了真实的逻辑推理。
意外的发现
2020 年,一些 4chan 玩家在玩一款名为《AI Dungeon》的文字角色扮演游戏时,做出了一个重要发现。这款游戏由 OpenAI 的 GPT-3 模型驱动。
- 玩家们发现,虽然模型本身不擅长数学,但如果要求游戏中的角色用分步解释的方式来解决一个数学问题,其准确率会显著提高。
- 玩家们立刻意识到了这一点的重要性,并将其命名为“链式思考”(chain of thought),还在社交媒体上分享了他们的发现。
- 这比 ChatGPT 的发布早了两年多,也比科技公司开始宣传这一概念早了一年多。
行业宣传与现实脱节
尽管 4chan 玩家早已揭示了“链式思考”的本质,但科技行业却在之后将其包装成一项革命性技术。
- 谷歌的研究人员曾在一篇论文中声称他们“首次”从大语言模型中引出了“链式思考”,尽管这比 4chan 玩家的发现晚了一年多。
- 近些年,OpenAI 和谷歌等公司开始宣称它们的模型能够“在回答前思考”,并将其产品称为“推理模型”。
- 这种宣传试图让人们相信,AI 不仅仅是在解决问题,而是在真正地进行思考。
与这种行业炒作形成鲜明对比的是 4chan 用户在 2024 年编写的一份指南,其开头明确指出:“你的机器人是一种幻觉。”
这份指南清晰地解释了聊天机器人只是模仿训练数据的语言工具,其核心观点比许多科技公司的官方说辞更接近真相。
“思考”的幻觉
研究表明,所谓的 AI 推理能力只是一种表象,模型只是在预测和模仿人类推理时会使用的语言模式。
- 模仿而非推理: AI 之所以能输出看似有逻辑的步骤,是因为它们的训练数据中包含了大量教科书、解题过程等文本。它们学会的是模仿推理的表达方式,而不是推理本身。
- 过程与结果脱节: 研究人员发现,模型有时会给出错误的推理步骤,但依然能得出正确的答案。这证明其最终答案与中间的“思考过程”没有必然的逻辑联系。
- 脆弱的“能力”: 苹果公司的研究显示,当在数学问题中加入一些不相关的干扰信息时,即便是最先进的“推理模型”,其表现也会下降高达 65%。这说明模型并未真正理解问题。
技巧的真正原理
“链式思考”之所以有效,其原因非常简单,也印证了早期玩家们的直觉。
正如一位 4chan 玩家在 2020 年所解释的:“它基于人类语言,所以你必须像和人交谈一样与它沟通,才能得到恰当的回应。”
这个技巧的本质是提供更多上下文。当要求模型分步解释时,这些额外的文字为模型下一步的单词预测提供了更精确的引导,从而将它的输出推向更相关的方向。这与我们平时使用大语言模型时得到的建议——“提问越具体,回答越好”——是同一个道理。它是一个有效的技巧,但终究只是一个技巧,而非真正的智能。