估算前沿 AI 模型在无 CoT 任务中的完成时间跨度

研究显示，前沿 AI 模型在不输出任何思考过程（即“链式思考”或 CoT）的情况下完成推理任务的能力正呈指数级增长。目前，顶尖模型已能可靠解决普通人约需 3 分钟完成的问题，而这种“无 CoT 推理”能力的时间跨度自 2019 年以来大约每年翻一番。如果这一趋势持续，到 2030 年，模型可能在不暴露任何思考步骤的情况下，完成相当于人类 25 分钟工作量的复杂推理，这将严重削弱基于 CoT 的安全监控方法的有效性。

无 CoT 推理的安全隐患

如果模型可以在不输出任何思考过程的情况下进行大量推理，将对安全产生深远影响。开发者和部署时的监控系统将难以理解模型的动机并及时发现 危险的规划。

思维偏离： 不依赖文本输出作为思考约束的模型，其思维模式可能与人类渐行渐远。
理解困难： 这类模型将变得更难被人类理解，也更有可能产生欺骗或规避行为。

因此，AI 公司应明确追踪模型的 无 CoT 推理能力，以此来确定模型在不被察觉的情况下，所能进行的隐藏推理的 能力下限。

研究方法

研究团队评估了从 GPT-2 (2019) 到 GPT-5.5 (2026) 的 14 个前沿模型，测试集涵盖数学、编程、知识、工具使用以及隐写术和欺骗性推理等 43 个基准。

在所有测试中，研究人员都通过特定的提示和结构化输出约束，阻止模型在给出最终答案前生成任何推理过程的文字。

评估问题难度主要通过两种独立方法：

人类解决时间： 估算一个普通人使用纸、笔和计算器（但无 LLM 辅助）解决同一问题所需的平均时间。
推理 token 锚点： 以 o3-mini 模型成功解决问题所需的最少推理 token 数量作为衡量标准。

通过这些方法，研究人员为每个模型拟合了一条逻辑曲线，以估算其 50% 成功率所对应的任务难度（即时间跨度或 token 数量）。

主要发现

研究发现，模型的无 CoT 推理能力呈指数级增长趋势。

时间跨度 (TH) 增长： 模型能解决的人类等效任务时间，大约每 373 天 翻一番。
Token 跨度增长： 模型能处理的等效推理 token 数量，大约每 437 天 翻一番。
当前前沿水平： GPT-5.5 模型在无 CoT 条件下，其 50% 成功率对应的任务难度约为 3 分钟人类时间 或 1,500 个 o3-mini 推理 token。

如果将这一趋势向前推演，到 2028 年，模型可能在无 CoT 条件下完成约 7 分钟的推理；到 2030 年，这一数字可能达到 约 25 分钟。

即使以最保守的增长率估计，到 2030 年，模型也可能具备近 10 分钟的隐藏推理能力。

常见问题解答

为什么这个趋势与之前的研究不同？ 之前的研究关注的是带有 CoT 的任务，其能力增长速度大约是无 CoT 任务的两倍。这表明自 GPT-4 以来，能力增长主要来自 外部化的推理（即写出思考过程），而非单次前向传播中的内在推理。
这衡量的是推理还是记忆？ 虽然基准测试包含一些事实回忆问题，但大部分是 侧重于推理 的问题。因此，我们认为这个指标能够很好地（尽管不完美地）反映模型的推理能力。
模型真的在“隐藏”推理吗？ 我们并非断言当前模型正在主动隐藏其推理过程。这项研究衡量的是它们可能在不被察觉的情况下完成多少推理，而不是它们实际上这样做了多少。
模型隐藏的推理能力可能比这更强吗？ 是的，我们的测量结果是一个下限。模型完全有可能通过将推理过程编码进看似无害的输出中（即“隐写术”）来规避 CoT 监控，从而实现比我们测量到的更强的隐藏推理能力。

结论

前沿模型无需任何外部思考过程即可完成大量推理，且这种能力正以指数速度增长。

目前 3 分钟的等效人类推理时间，可能足以让模型做出一些一次性的决策，比如是否遵守指令或判断当前场景是否为评估环境。但这可能不足以进行复杂的长期规划，例如在训练中博弈或与其他实例串通。

如果趋势持续，到 2030 年，模型可能具备 25 分钟的无 CoT 推理能力，这将使其能够进行更具颠覆性的活动。未来几年，即使没有出现更高级的内部语言，依赖链式思考（CoT）进行监控的有效性也可能大幅降低。