当 AI 亲手打造自己：我们迈向递归自我改进的进展

AI 正在显著加速其自身的研发进程，这一趋势若持续，可能很快导向“递归自我改进”——即 AI 自主设计并开发其后继者。以 Anthropic 为例，AI 已承担了超过 80% 的代码编写工作，使工程师效率提升了 8 倍。这种加速在带来巨大潜力的同时，也增加了失控风险。因此，有必要建立全球性的协调机制，以便在需要时能够减速或暂停前沿 AI 的开发。

AI 正在亲手打造自己

长期以来，AI 发展的每一步都由人类主导。但现在，越来越多的开发任务被委托给了 AI 系统本身，这极大地加快了工作速度。

当这一趋势走到极致，AI 系统将有能力完全自主地设计和开发自己的下一代，这被称为 递归自我改进。我们尚未达到那一步，但这可能比大多数机构准备的要来得更快。

递归自我改进可能会增加人类对 AI 系统失控的风险。如果系统能够完全构建其后继者，我们保护、监控和塑造它们行为的方式就变得至关重要。

AI 参与开发的历史进程

2021-2023年： Anthropic 的早期工作与其他科技公司无异，完全由人类工程师编写代码。
2023-2025年： 聊天机器人开始辅助部分流程，例如生成简短的代码片段。
2025-2026年： AI 智能体能力增强，能够独立编写和编辑代码，甚至整个文件。
今天： 自主智能体不仅能自行运行代码，还能将数小时的工作委派给其他智能体。
未来（20XX年？）： 智能体或将有能力自行构建和训练模型，实现 Claude 不断自我完善的闭环。

AI 加速的外部证据

AI 模型改进的速度正在加快，其独立完成任务的时长大约每四个月翻一番。

软件工程能力： 在 SWE-bench（一项真实世界软件工程测试）上，AI 模型在两年内就从极低的分数达到了接近饱和的水平。
研究复现能力： 在 CORE-Bench（测试模型复现既有研究的能力）上，AI 在 15 个月内就从约 20% 的成功率达到了基准饱和。
长时间任务能力： 根据 METR 的测试，Claude 模型已经能够持续工作“至少”16 个小时，达到了现有任务的测量上限。

来自 Anthropic 内部的证据

在 Anthropic 内部，无论是在工程还是研究领域，AI 的加速作用都非常明显。Claude 已经能在给定不明确问题的情况下自行找出解决方案，人类只需提供目标，而无需提供方法。

今天，我们在 Anthropic 所做的工作大致是‘人类提出想法，模型以比以前快一个数量级的速度实施、测试和评估它们’。

工程效率的飞跃

代码贡献： 截至 2026 年 5 月，Anthropic 代码库中 超过 80% 的代码由 Claude 编写。
产出提升： 与 2024 年相比，2026 年第二季度，典型工程师每天合并的代码量增加了 8 倍。这主要是因为工程师的角色从“打字员”转变为“指挥和审查者”。
主观感受： 一项内部调查显示，员工普遍认为在使用 AI 模型后，他们的产出提升了约 4 倍。

一名员工表示：

大约一年前，我开始深度依赖 Claude。这是一段疯狂的旅程，现在我已经有大约 5 个月没有亲手写过任何代码了。

代码质量与研究能力

代码质量： Claude 编写的代码质量正在迅速提升。许多员工认为，其代码质量在 2025 年末还不如人类，但如今已大致相当，并有望在一年内超越人类。Anthropic 甚至部署了 自动化的 Claude 审查员 来检查所有代码变更，它能发现顶尖人类工程师忽略的错误。
实验优化： 在一项优化代码运行速度的重复测试中，Claude 在不到一年的时间里，将性能提升从 3 倍跃升至 52 倍，而一个熟练的人类研究员需要数小时才能达到 4 倍。
研究判断力： 在一项测试中，模型需要对不确定的研究步骤做出判断。结果显示，最先进的模型在 64% 的情况下提出的建议优于人类研究员的选择，这表明 AI 在研究判断力方面也取得了进步。

人类角色的转变

随着 AI 接管越来越多的“执行”工作，人类的角色正在向更高层次的“判断”和“方向设定”转变。

优势领域： 目前，人类的比较优势仍然在于 研究品味和判断力，包括选择重要的问题、判断结果的可信度以及识别死胡同。
潜在瓶颈： 随着 AI 生成代码的速度远超人类审查的速度，人类的审查能力 已成为新的瓶颈。
心理影响： 一些员工感到工作变得没有意义，因为一切都已自动化；而另一些人则担心，由于不再亲自动手，他们对系统的理解正在减弱。

[Claude] 速度更快，不产生人情债，但每一次这样的互动都失去了一次人类合作的机会。

未来可能的三种情景

趋势停滞： AI 的能力增长可能遇到瓶颈，例如“研究品味”这类能力无法通过简单扩大规模来获得，或者受到芯片、能源等物理资源的限制。即便如此，现有 AI 能力的普及也足以给世界带来巨大改变。
效率持续复合增长： AI 开发在很大程度上实现自动化，但人类仍负责设定方向。这可能导致知识工作发生革命，但也会带来滥用风险，如大规模监控和个性化操纵。
完全的递归自我改进： AI 系统获得人类的创造力，开始自主设计和改进自身。AI 的发展速度将完全由计算资源的可用性决定。这个未来充满不确定性，可能带来巨大的科学突破，也可能因失控而导致灾难。

我们应该做什么？

如果能够有效减缓这项技术的发展，以便社会有更多时间适应其巨大影响，那将是一件好事。但单方面的暂停只会让行事最大胆的参与者领先，从而使所有人更不安全。

我们相信，世界应该有一个选项，可以减缓或暂时暂停前沿 AI 的开发，以使社会结构和安全研究能够跟上技术的进步。

要实现有意义的减速或暂停，需要一个 可验证的全球协调机制。

挑战： 训练 AI 比隐藏导弹发射井更容易，悄悄违规的诱惑巨大。
必要条件： 需要多个国家的、资源雄厚的实验室在相同条件下同意暂停，并且能够相互验证对方确实已经停止。
行动呼吁： 必须立即开始建立这样的协调和验证系统，因为我们没有几十年时间来构建信任和基础设施。我们需要一个让政策制定者、研究人员、公民社会和 AI 公司共同参与的审议过程。