思维的假象

苹果公司的一项研究发现,先进的“大型推理模型”(LRMs)在处理复杂难题时会彻底失败,这引发了一场关于人工智能是否能真正“推理”的激烈辩论。批评者认为,这些模型只是在进行更复杂的模式匹配,其表现揭示了根本性的局限性。而模型开发者则反驳称,问题在于苹果的测试方法有缺陷。与此同时,一些务实的观察者指出,无论这些模型能否解决理论难题,它们在现实世界中已经非常有用,而谷歌在国际数学奥林匹克竞赛中取得的成功,则为这场讨论增添了更多复杂性。

苹果研究:推理模型的“崩溃点”

苹果公司的研究人员设计了一系列可控的逻辑谜题,以精确测试大型推理模型(LRMs)在不同复杂度下的表现。他们发现,这些模型在处理简单问题时会“过度思考”,在中等难度问题上表现尚可,但一旦问题复杂度超过某个临界点,其准确率就会彻底崩溃。

通过在多种谜题上的大量实验,我们发现前沿的大型推理模型在超过一定复杂度后,会面临完全的准确率崩溃。

研究人员和一些评论者认为,这表明所谓的“推理”可能只是更高级的模式匹配。其行为模式可以概括为:

    • 简单问题: 表现得比普通模型更繁琐,类似于“杀鸡用牛刀”。
    • 中等问题: 表现优于标准的大语言模型(LLMs)。
    • 复杂问题: 和标准模型一样,遭遇同样的失败。

争论:是模型缺陷还是测试方法问题?

AI 公司 Anthropic 迅速回应,认为苹果的结论主要源于其实验设计的局限性,而非模型存在根本性的推理缺陷。

我们证明,他们的发现主要反映了实验设计的局限性,而不是根本性的推理失败。

Anthropic 指出,当他们调整测试方法——比如要求模型提供解决问题的通用公式(生成函数),而不是详尽的每一步操作列表——模型在之前被报告为“完全失败”的任务上取得了很高的准确率。

这一反驳也引来了嘲讽,有人评论说,这相当于“为了通过推理测试,先把推理部分去掉了”。

两种观点:这是根本性障碍还是无关紧要?

这场辩论分裂出两种截然不同的观点,反映了对人工智能未来发展的不同看法。

  • 观点一:这是“扩展不是答案”的明确信号

    学者加里·马库斯(Gary Marcus)认为,苹果的发现是一个里程碑事件,证明了单纯依靠增加模型规模和数据(即“扩展”)的路径是行不通的。他强调,当价值数十亿美元的 AI 无法解决一个孩子都能完成的谜题时,是时候反思当前的炒作了。

    如果像萨姆·奥特曼(Sam Altman)这样的人在出汗,那是因为他们应该如此。苹果的论文是又一个明确的信号,表明扩展不是答案。

  • 观点二:“它们现在已经很有用”

    技术专家西蒙·威尔逊(Simon Willison)则持更为务实的态度。他认为,纠结于这些模型是否是通往通用人工智能(AGI)的正确道路没有意义。关键在于,只要了解其局限性,它们在今天就已经能发挥巨大作用。

    > 我不关心它们是否是“通往AGI的道路”。我只关心在了解了它们的局限性之后,它们在今天是否有用。

新的进展:数学领域的突破

就在这场争论进行的同时,谷歌宣布其 Gemini 模型在国际数学奥林匹克竞赛(IMO)中取得了金牌水平的表现。IMO 是全球最顶尖的青年数学竞赛,其题目需要极高的抽象和逻辑推理能力。

这一成就表明,尽管在某些类型的逻辑谜题上存在局限,但最先进的 AI 模型已经能够在其他高度复杂的领域中达到人类顶尖水平,使得关于其真实能力的评估变得更加复杂和微妙。