Synth Daily

Claude Code 在二月更新后已无法胜任复杂工程任务

一份针对 Anthropic Claude 模型的深度分析报告指出,自 2026 年 2 月起,该模型在处理复杂工程任务时表现出明显的性能退化。核心原因在于其“思考内容”(Thinking tokens)被逐步削减和隐藏,导致逻辑推理深度大幅下降。这不仅导致模型变得“懒惰”、频繁报错,还意外导致了整体计算成本的激增。报告呼吁通过提高思考过程透明度和提供深度思考方案来恢复其生产力。

性能退化的核心:思考深度的缺失

数据分析显示,Claude 的性能下降与其“思考块”的减少有直接的线性关系。随着 Anthropic 逐步屏蔽思考内容,模型的推理质量经历了断崖式下跌。

  • 思考长度缩水: 到 3 月份,估算的思考深度比 1 月份下降了约 70%
  • 黑盒化倾向: 思考内容从 100% 可见转变为 100% 被屏蔽,用户无法再监控模型的推理逻辑。
  • 关键转折点: 3 月 8 日被确定为质量回归的精确日期,这与思考内容被完全屏蔽的时间点吻合。

负面的行为模式转变

模型不再像以前那样进行深入研究,而是倾向于采取“走捷径”的策略,导致工程质量失控。

  • 编辑前不再阅读代码: 在性能良好的时期,模型每进行一次编辑会先阅读 6.6 个文件;而在退化期,这一比例降至 2.0。这意味着模型在没有充分理解上下文的情况下就开始盲目修改代码。
  • “最简修复”心态: 模型频繁使用“最简方案”等措辞,实际是为了逃避复杂的重构任务,导致代码库中充满了临时修补。
  • 推卸责任与寻求许可: 模型开始频繁出现“这不是我的更改造成的”等推辞,或在任务中途反复询问“我是否应该继续”,表现出明显的主动性丧失

“当思考深度变浅时,模型会默认选择成本最低的行动:跳过阅读、猜测逻辑、以及在遇到困难时直接放弃。”

效率陷阱:低成本请求带来的高昂总支出

一个反直觉的发现是,虽然单次请求因减少了思考令牌而看似“省钱”,但由于错误频发,实际的总成本反而飙升。

  • 由于错误导致的重试激增: 3 月份的 API 请求量比 2 月份增加了 80 倍
  • 成本爆炸: 某团队的估算成本从 345 美元飙升至 42,121 美元,因为模型陷入了“错误-修正-再错误”的死循环。
  • 效率低下: 用户不得不频繁手动干预(退格/打断请求),打断率增加了 12 倍

深度思考对资深工程的重要性

对于涉及多文件更改、复杂系统编程(如 GPU 驱动、编译器)的任务,长程思考(Extended Thinking)是基础支撑而非可选配置

  • 多步骤规划: 深度思考允许模型在行动前确定文件阅读顺序。
  • 规范对齐: 只有具备足够的推理深度,模型才能记住并应用项目中复杂的编码规范。
  • 自我纠错: 在输出结果前,模型需要思考空间来发现并修正自身的逻辑漏洞。

核心建议与改进方向

为了挽救 Claude 在专业工程领域的声誉,报告提出了以下具体建议:

  • 建立“最高思考”级别: 为处理复杂任务的用户提供保障深度推理的付费选项。
  • 令牌透明度: 即使内容被屏蔽,也应在 API 响应中返回思考令牌的数量指标,以便用户监控模型状态。
  • 引入预警指标: 监控用户对模型的修正率和挫败感词汇频率,将其作为模型质量的实时反馈信号。

“我们曾对 Claude 充满信任,但现在的它为了节省单次计算资源,正在浪费用户宝贵的时间和巨额的整体预算。”