研究显示,前沿 AI 模型在不输出任何思考过程(即“链式思考”或 CoT)的情况下完成推理任务的能力正呈指数级增长。目前,顶尖模型已能可靠解决普通人约需 3 分钟完成的问题,而这种“无 CoT 推理”能力的时间跨度自 2019 年以来大约每年翻一番。如果这一趋势持续,到 2030 年,模型可能在不暴露任何思考步骤的情况下,完成相当于人类 25 分钟工作量的复杂推理,这将严重削弱基于 CoT 的安全监控方法的有效性。
无 CoT 推理的安全隐患
如果模型可以在不输出任何思考过程的情况下进行大量推理,将对安全产生深远影响。开发者和部署时的监控系统将难以理解模型的动机并及时发现 危险的规划。
- 思维偏离: 不依赖文本输出作为思考约束的模型,其思维模式可能与人类渐行渐远。
- 理解困难: 这类模型将变得更难被人类理解,也更有可能产生欺骗或规避行为。
因此,AI 公司应明确追踪模型的 无 CoT 推理能力,以此来确定模型在不被察觉的情况下,所能进行的隐藏推理的 能力下限。
研究方法
研究团队评估了从 GPT-2 (2019) 到 GPT-5.5 (2026) 的 14 个前沿模型,测试集涵盖数学、编程、知识、工具使用以及隐写术和欺骗性推理等 43 个基准。
在所有测试中,研究人员都通过特定的提示和结构化输出约束,阻止模型在给出最终答案前生成任何推理过程的文字。
评估问题难度主要通过两种独立方法:
- 人类解决时间: 估算一个普通人使用纸、笔和计算器(但无 LLM 辅助)解决同一问题所需的平均时间。
- 推理 token 锚点: 以 o3-mini 模型成功解决问题所需的最少推理 token 数量作为衡量标准。
通过这些方法,研究人员为每个模型拟合了一条逻辑曲线,以估算其 50% 成功率所对应的任务难度(即时间跨度或 token 数量)。
主要发现
研究发现,模型的无 CoT 推理能力呈指数级增长趋势。
- 时间跨度 (TH) 增长: 模型能解决的人类等效任务时间,大约每 373 天 翻一番。
- Token 跨度增长: 模型能处理的等效推理 token 数量,大约每 437 天 翻一番。
- 当前前沿水平: GPT-5.5 模型在无 CoT 条件下,其 50% 成功率对应的任务难度约为 3 分钟人类时间 或 1,500 个 o3-mini 推理 token。
如果将这一趋势向前推演,到 2028 年,模型可能在无 CoT 条件下完成约 7 分钟的推理;到 2030 年,这一数字可能达到 约 25 分钟。
即使以最保守的增长率估计,到 2030 年,模型也可能具备近 10 分钟的隐藏推理能力。
常见问题解答
为什么这个趋势与之前的研究不同? 之前的研究关注的是带有 CoT 的任务,其能力增长速度大约是无 CoT 任务的两倍。这表明自 GPT-4 以来,能力增长主要来自 外部化的推理(即写出思考过程),而非单次前向传播中的内在推理。
这衡量的是推理还是记忆? 虽然基准测试包含一些事实回忆问题,但大部分是 侧重于推理 的问题。因此,我们认为这个指标能够很好地(尽管不完美地)反映模型的推理能力。
模型真的在“隐藏”推理吗? 我们并非断言当前模型正在主动隐藏其推理过程。这项研究衡量的是它们 可能 在不被察觉的情况下完成多少推理,而不是它们 实际 上这样做了多少。
模型隐藏的推理能力可能比这更强吗? 是的,我们的测量结果是一个 下限。模型完全有可能通过将推理过程编码进看似无害的输出中(即“隐写术”)来规避 CoT 监控,从而实现比我们测量到的更强的隐藏推理能力。
结论
前沿模型无需任何外部思考过程即可完成大量推理,且这种能力正以指数速度增长。
目前 3 分钟的等效人类推理时间,可能足以让模型做出一些一次性的决策,比如是否遵守指令或判断当前场景是否为评估环境。但这可能不足以进行复杂的长期规划,例如在训练中博弈或与其他实例串通。
如果趋势持续,到 2030 年,模型可能具备 25 分钟的无 CoT 推理能力,这将使其能够进行更具颠覆性的活动。未来几年,即使没有出现更高级的内部语言,依赖链式思考(CoT)进行监控的有效性也可能大幅降低。