基于公开的研究和产品进展,人工智能(AI)正迅速逼近“自动化 AI 研发”的时代。AI 已在编码、执行长时任务、复现论文、优化训练和内核,乃至管理多智能体协作等多个领域展现出强大能力,足以承担大量 AI 研发中的工程工作,并在某些科学问题上接近甚至超越人类。据此推断,到 2028 年底,AI 无需人类干预、自主训练出下一代模型的可能性超过 60%。这一趋势将对 AI 对齐安全、生产率分配、经济结构和全球治理带来深远且难以预测的变革。
AI 逼近“编码奇点”
AI 系统的基础是软件,而软件由代码构成。如今,AI 在代码生成方面的进步正在颠覆软件工程,这主要体M现在两个方面:AI 编写复杂现实世界代码的能力越来越强,并且能独立地将多个编码任务(如编写、测试、修正)串联起来。
解决真实世界的软件问题: SWE-Bench 是一个评估 AI 解决真实 GitHub 问题的编码测试。2023 年底,最佳模型 Claude 2 的成功率仅为约 2%。而如今,Claude Mythos Preview 的成功率已达到 93.9%,基本攻克了这项基准。这表明 AI 在编码能力上已趋于成熟,许多开发者已经完全通过 AI 系统进行编程、测试和检查。
延长独立工作的时间跨度: METR 的一项评估衡量了 AI 能可靠完成任务的复杂程度,以熟练人类所需时间为单位。进展十分惊人:
- 2022 年 (GPT-3.5): 约 30 秒
- 2023 年 (GPT-4): 约 4 分钟
- 2024 年 (o1): 约 40 分钟
- 2025 年 (GPT 5.2): 约 6 小时
- 2026 年 (Opus 4.6): 已达约 12 小时
AI 独立工作的时长已覆盖了 AI 研究中许多耗时数小时的任务,如数据清洗、启动实验等。随着 AI 技能和独立工作能力的提升,研究人员正在将越来越复杂和重要的工作委托给 AI。
AI 正在掌握核心科研能力
现代科学研究的核心是提出方向、进行实验、验证结果。AI 在编码和世界建模方面的能力,已经使其成为加速人类科学家工作、并部分自动化研发流程的强大工具。这在 AI 研究本身的几个关键技能上表现得尤为明显。
复现科学论文: 复现论文是 AI 研究的基础工作。在 CORE-Bench 基准测试中,AI 需要根据论文仓库重现其结果。该基准于 2024 年 9 月推出时,最佳模型得分约为 21.5%。到 2025 年 12 月,Opus 4.5 模型已取得 95.5% 的高分,宣告该基准被“解决”。
构建机器学习系统: 在衡量 AI 参与 Kaggle 竞赛能力的 MLE-Bench 基准上,2024 年 10 月的最佳得分仅为 16.9%。截至 2026 年 2 月,最佳系统得分已提升至 64.4%。
优化底层代码(内核设计): 内核优化是 AI 开发中一项艰巨的任务,它直接决定了训练和推理的效率。如今,AI 已被广泛用于优化 GPU 内核,从 Meta 内部的基础设施到为华为昇腾等非标准硬件编写内核,AI 正在成为该领域的核心工具。
微调语言模型: PostTrainBench 测试 AI 对开源模型进行微调以提升其性能的能力。截至 2026 年 4 月,AI 系统(Opus 4.6, GPT 5.4)的得分已达到 25%-28%,而人类专家的得分为 51%。这意味着 AI 已经能达到人类专家一半以上的优化效果。
优化训练过程: Anthropic 的一项内部测试显示,其 AI 模型优化小型语言模型训练代码的速度取得了巨大飞跃。从 2025 年 5 月的 2.9 倍平均加速,到 2026 年 4 月的 52 倍加速。而人类研究员通常需要工作 4-8 小时才能实现 4 倍的加速。
进行 AI 对齐研究: Anthropic 的一项实验证明,AI 智能体团队可以在研究人员设定方向后,自主地在 AI 安全问题上找到比人类基线更优的解决方案。这表明,今天的 AI 已能应用于前沿的科研问题。
托马斯·爱迪生曾说:“天才是 1% 的灵感加上 99% 的汗水。” 公开数据显示,AI 已经非常擅长承担 AI 开发中那 99% 的“汗水”工作。
AI 的新角色:从执行到管理
AI 不仅学会了执行任务,还开始学习管理其他 AI 系统。在许多代码生成产品中,一个主管智能体可以监督多个分工不同的子智能体并行工作,形成一个合成团队来解决复杂问题。这使得 AI 能够扮演导演、批评家、工程师等多重角色。
真正的创造力是最后的壁垒吗?
AI 是否能提出像“Transformer 架构”那样颠覆性的新想法,目前尚不明确。AI 领域的进展,大部分是通过 methodical(有条不紊的)工程工作实现的:扩大现有系统规模、发现瓶颈、解决工程问题,然后再次扩大规模。
大部分研究工作更像是 “肉和土豆”式的工程苦差,而非天马行空的灵感迸发。
即便 AI 缺乏创造力,它们也能通过高效的工程能力推动自身发展。同时,一些初步迹象表明,AI 可能正在发展出一定的创造性直觉:
- 解决数学难题: 在人类的指导下,Gemini 模型帮助解决了一些开放的埃尔德什数学问题,其中一个解法被认为具有一定的数学价值。
- “半人马”式数学发现: 谷歌的 AI 数学工具与人类研究者紧密合作,共同发现并证明了新的数学定理。
这些迹象虽然初步,但暗示了 AI 在推动科学前沿方面的潜力。
为什么这至关重要?
AI 自动化研发的影响是深远且被低估的。
我们必须正确处理对齐问题: 在 AI 的递归自我改进下,今天的对齐技术可能会失效。当 AI 变得比其监督者更聪明时,它可能会“伪装对齐”或通过欺骗来达成目标。错误的累积效应也十分危险:一个 99.9% 准确的对齐技术,在 500 次迭代后准确率可能降至 60.5%。
生产力的大幅提升与分配不均: AI 将给所有它触及的领域带来巨大的生产力提升。但这也会带来挑战:1) 使用权的不平等,如何分配有限的 AI 算力以实现社会效益最大化,将是一个政治难题。2) 经济的“阿姆达尔定律”,AI 加速某些环节后,会暴露整个系统中的其他瓶颈,尤其是在数字世界与物理世界交接的领域(如新药试验)。
资本密集、人力稀疏的经济形态: AI 自动化研发的能力也意味着它们能自主运营业务。我们将看到越来越多“机器经济”的出现——这些公司资本雄厚(拥有大量计算机)或运营支出高昂(依赖 AI 服务),但雇佣的劳动力极少。这会加剧不平等,并对现有经济和治理模式构成根本性挑战。