Synth Daily

当 AI 亲手打造自己:我们迈向递归自我改进的进展

AI 正在显著加速其自身的研发进程,这一趋势若持续,可能很快导向“递归自我改进”——即 AI 自主设计并开发其后继者。以 Anthropic 为例,AI 已承担了超过 80% 的代码编写工作,使工程师效率提升了 8 倍。这种加速在带来巨大潜力的同时,也增加了失控风险。因此,有必要建立全球性的协调机制,以便在需要时能够减速或暂停前沿 AI 的开发。

AI 正在亲手打造自己

长期以来,AI 发展的每一步都由人类主导。但现在,越来越多的开发任务被委托给了 AI 系统本身,这极大地加快了工作速度。

当这一趋势走到极致,AI 系统将有能力完全自主地设计和开发自己的下一代,这被称为 递归自我改进。我们尚未达到那一步,但这可能比大多数机构准备的要来得更快。

递归自我改进可能会增加人类对 AI 系统失控的风险。如果系统能够完全构建其后继者,我们保护、监控和塑造它们行为的方式就变得至关重要。

AI 参与开发的历史进程

  • 2021-2023年: Anthropic 的早期工作与其他科技公司无异,完全由人类工程师编写代码。
  • 2023-2025年: 聊天机器人开始辅助部分流程,例如生成简短的代码片段。
  • 2025-2026年: AI 智能体能力增强,能够独立编写和编辑代码,甚至整个文件。
  • 今天: 自主智能体不仅能自行运行代码,还能将数小时的工作委派给其他智能体。
  • 未来(20XX年?): 智能体或将有能力自行构建和训练模型,实现 Claude 不断自我完善的闭环。

AI 加速的外部证据

AI 模型改进的速度正在加快,其独立完成任务的时长大约每四个月翻一番。

  • 软件工程能力: 在 SWE-bench(一项真实世界软件工程测试)上,AI 模型在两年内就从极低的分数达到了接近饱和的水平。
  • 研究复现能力: 在 CORE-Bench(测试模型复现既有研究的能力)上,AI 在 15 个月内就从约 20% 的成功率达到了基准饱和。
  • 长时间任务能力: 根据 METR 的测试,Claude 模型已经能够持续工作“至少”16 个小时,达到了现有任务的测量上限。

来自 Anthropic 内部的证据

在 Anthropic 内部,无论是在工程还是研究领域,AI 的加速作用都非常明显。Claude 已经能在给定不明确问题的情况下自行找出解决方案,人类只需提供目标,而无需提供方法。

今天,我们在 Anthropic 所做的工作大致是‘人类提出想法,模型以比以前快一个数量级的速度实施、测试和评估它们’。

工程效率的飞跃

  • 代码贡献: 截至 2026 年 5 月,Anthropic 代码库中 超过 80% 的代码由 Claude 编写
  • 产出提升: 与 2024 年相比,2026 年第二季度,典型工程师每天合并的代码量增加了 8 倍。这主要是因为工程师的角色从“打字员”转变为“指挥和审查者”。
  • 主观感受: 一项内部调查显示,员工普遍认为在使用 AI 模型后,他们的产出提升了约 4 倍。

一名员工表示:

大约一年前,我开始深度依赖 Claude。这是一段疯狂的旅程,现在我已经有大约 5 个月没有亲手写过任何代码了。

代码质量与研究能力

  • 代码质量: Claude 编写的代码质量正在迅速提升。许多员工认为,其代码质量在 2025 年末还不如人类,但如今已大致相当,并有望在一年内超越人类。Anthropic 甚至部署了 自动化的 Claude 审查员 来检查所有代码变更,它能发现顶尖人类工程师忽略的错误。
  • 实验优化: 在一项优化代码运行速度的重复测试中,Claude 在不到一年的时间里,将性能提升从 3 倍跃升至 52 倍,而一个熟练的人类研究员需要数小时才能达到 4 倍。
  • 研究判断力: 在一项测试中,模型需要对不确定的研究步骤做出判断。结果显示,最先进的模型在 64% 的情况下提出的建议优于人类研究员的选择,这表明 AI 在研究判断力方面也取得了进步。

人类角色的转变

随着 AI 接管越来越多的“执行”工作,人类的角色正在向更高层次的“判断”和“方向设定”转变。

  • 优势领域: 目前,人类的比较优势仍然在于 研究品味和判断力,包括选择重要的问题、判断结果的可信度以及识别死胡同。
  • 潜在瓶颈: 随着 AI 生成代码的速度远超人类审查的速度,人类的审查能力 已成为新的瓶颈。
  • 心理影响: 一些员工感到工作变得没有意义,因为一切都已自动化;而另一些人则担心,由于不再亲自动手,他们对系统的理解正在减弱。

[Claude] 速度更快,不产生人情债,但每一次这样的互动都失去了一次人类合作的机会。

未来可能的三种情景

  1. 趋势停滞: AI 的能力增长可能遇到瓶颈,例如“研究品味”这类能力无法通过简单扩大规模来获得,或者受到芯片、能源等物理资源的限制。即便如此,现有 AI 能力的普及也足以给世界带来巨大改变。
  2. 效率持续复合增长: AI 开发在很大程度上实现自动化,但人类仍负责设定方向。这可能导致知识工作发生革命,但也会带来滥用风险,如大规模监控和个性化操纵。
  3. 完全的递归自我改进: AI 系统获得人类的创造力,开始自主设计和改进自身。AI 的发展速度将完全由计算资源的可用性决定。这个未来充满不确定性,可能带来巨大的科学突破,也可能因失控而导致灾难。

我们应该做什么?

如果能够有效减缓这项技术的发展,以便社会有更多时间适应其巨大影响,那将是一件好事。但单方面的暂停只会让行事最大胆的参与者领先,从而使所有人更不安全。

我们相信,世界应该有一个选项,可以减缓或暂时暂停前沿 AI 的开发,以使社会结构和安全研究能够跟上技术的进步。

要实现有意义的减速或暂停,需要一个 可验证的全球协调机制

  • 挑战: 训练 AI 比隐藏导弹发射井更容易,悄悄违规的诱惑巨大。
  • 必要条件: 需要多个国家的、资源雄厚的实验室在相同条件下同意暂停,并且能够相互验证对方确实已经停止。
  • 行动呼吁: 必须立即开始建立这样的协调和验证系统,因为我们没有几十年时间来构建信任和基础设施。我们需要一个让政策制定者、研究人员、公民社会和 AI 公司共同参与的审议过程。