大模型的“模拟推理”能力只是镜花水月
一项新研究表明,采用“链式思维”(CoT)的 AI 模型在处理其训练数据范围之外的逻辑问题时,性能会显著下降。这揭示出它们并非真正的推理者,而更像是“推理式文本的复杂模拟器”,其看似强大的逻辑能力可能只是一个脆弱的海市蜃楼,无法进行真正的归纳和泛化。
推理的幻觉
近期的研究已经对 AI 模型是否真正理解基本逻辑概念产生了怀疑。当问题包含无关信息或与训练模板稍有偏差时,这些所谓的“推理”模型经常会产生不连贯、不合逻辑的答案。
研究人员总结认为,大语言模型(LLMs)“并非有原则的推理者,而是对推理式文本的复杂模拟器”。
为了验证这一点,研究人员创建了一个受控的测试环境,旨在衡量当链式思维模型面对其训练数据中未曾见过的“域外”逻辑问题时,其推理能力究竟如何。
受控环境下的测试
研究人员设计了一个名为 DataAlchemy 的特殊训练环境,用以客观地衡量模型的泛化推理能力。
- 训练内容: 模型被训练处理两种极其简单的文本转换任务。
- 测试方法: 随后,模型被要求处理一系列新任务,这些任务在类型、格式和长度上都与训练数据不同。
- 评估标准: 模型的最终答案和推理步骤的准确性会与标准答案进行客观比较。
测试的核心在于,模型需要处理一些它从未见过的、全新的任务组合。例如,一个只见过“两次循环移位”示例的模型,可能会被要求执行“两次 ROT 变换”。
脆弱的结果:模式匹配而非理解
实验结果证实了研究人员的假设:当被要求泛化处理训练数据中没有直接展示过的新任务时,模型开始灾难性地失败。
- 推理与答案脱节: 模型常常会提出“正确的推理路径,但得出错误的答案”。
- 答案与推理矛盾: 在其他情况下,模型有时会侥幸得出正确答案,但其推理过程却是“不忠实且不合逻辑的”。
- 对微小变化敏感: 无论是输入文本的长度稍有变化,还是任务格式引入了训练数据中未见过的新符号,模型的性能都会“急剧下降”。
“链式思维推理似乎只是反映了对训练中所学模式的复制,而不是展示了对文本的真正理解。”
这些发现表明,链式思维模型所取得的性能飞跃在很大程度上是“一个脆弱的海市蜃楼”,一旦面临中等程度的分布变化,就会变得“脆弱且容易失败”。
“虚假的可靠光环”
研究人员警告称,试图通过微调(SFT)来“修补”模型在特定任务上的失败,并不能解决核心问题,这是一种不可持续的被动策略。
“依赖 SFT 来修复每一个域外失败,是一种不可持续的、治标不治本的策略,它未能解决核心问题:模型缺乏抽象推理能力。”
这些模型展现的并非通用的逻辑推理能力,而是一种“复杂的结构化模式匹配”。它们能够生成“流利的胡言乱语”,从而制造出一种“虚假的可靠光环”,这种光环在仔细审查下不堪一击。
因此,研究人员强烈建议,不要“将链式思维风格的输出等同于人类思维”,尤其是在医学、金融或法律分析等高风险领域。未来的模型需要超越“表层模式识别,以展现更深层次的推理能力”。