Synth Daily

单步推理下的无 CoT 数学时间范围测度

通过评估AI模型在不使用“链式思考”(CoT)的情况下解决数学竞赛题的能力,测量了其“50%可靠性时间视野”——即模型能在多长时间内以50%的准确率完成任务。研究发现,顶尖模型 Opus 4.5 的无CoT时间视野约为3.5分钟,并且该能力每9个月翻一番。尽管这种不透明的推理能力增长速度慢于使用CoT的透明推理,但它依然显示出AI在单步、并行任务上的强大潜力,并为理解和预测未来AI能力的发展提供了重要参考。

主要发现:3.5分钟的单步推理能力

这项研究的核心是测量AI在不经过逐步思考、直接给出答案时的能力。这种能力被称为无链式思考(no-CoT)或“不透明推理”。

  • 当前顶尖水平: Anthropic的Opus 4.5模型,其50%可靠性的无CoT时间视野为 3.5分钟。这意味着它有50%的把握,能立即解决一个普通AIME竞赛参与者需要3.5分钟才能完成的数学题。
  • 增长速度: 这种能力的“时间视野”大约 每9个月翻一番
  • 性能提升技巧: 通过在提示中 重复问题5次 或加入无意义的“填充令牌”,可以显著提高模型的无CoT表现。例如,Gemini 3 Pro的时间视野从未重复问题时的2.8分钟提升到了重复后的3.8分钟。

不透明的推理能力是AI发展中的一个关键风险因素。

能力增长对比与未来预测

一个重要的观察是,AI的不透明推理能力与透明推理(即使用链式思考)能力之间存在差距,且增长速度也不同。

  • 增长速度差异: 无CoT能力的增长速度(9个月翻倍)明显慢于带CoT的能力(在软件工程任务上约4-6个月翻倍)。这意味着AI“展示思考过程”的能力进步得更快。
  • 任务类型差异:
    • 在数学这类 高度序列化 的任务上,AI的无CoT能力受限。
    • 但在 高度并行化 的任务上(如阅读大量代码找bug),AI的“不透明”能力非常强大,远超人类。

基于当前的增长趋势,可以做出一个推测:

当未来AI的“带链式思考”时间视野在软件工程任务上达到40小时的时候,其在数学问题上的“无链式思考”时间视野预计将达到 16分钟

方法与局限性

为了确保评估的准确性,研究采用了一系列特定方法,但也存在一些局限性。

  • 数据集: 使用了一个包含907道中低难度竞赛数学题的数据集,主要来自MATHCOUNTS和匈牙利高中竞赛。这有助于精确测量1-5分钟范围内的能力。
  • 人类基准: 人类解决问题的时间是由Opus 4.5模型估算的,而非真人测试,这可能带来误差。

主要局限性包括:

  • 任务局限: 结果仅限于数学问题。AI可能对这类问题“过拟合”,在其他需要串联不同领域知识的任务上,其无CoT表现可能很差。
  • 架构假设: 所有预测都基于现有模型架构。如果未来出现重大改变(例如转向“神经语”),带CoT和不带CoT的能力可能会趋于一致。
  • 评估困难: 像Gemini系列模型默认开启推理,评估其无CoT能力需要使用一些非常规的技巧,可能影响结果的准确性。