导入 AI 455：AI 系统即将开始自我构建。

基于公开的研究和产品进展，人工智能（AI）正迅速逼近“自动化 AI 研发”的时代。AI 已在编码、执行长时任务、复现论文、优化训练和内核，乃至管理多智能体协作等多个领域展现出强大能力，足以承担大量 AI 研发中的工程工作，并在某些科学问题上接近甚至超越人类。据此推断，到 2028 年底，AI 无需人类干预、自主训练出下一代模型的可能性超过 60%。这一趋势将对 AI 对齐安全、生产率分配、经济结构和全球治理带来深远且难以预测的变革。

AI 逼近“编码奇点”

AI 系统的基础是软件，而软件由代码构成。如今，AI 在代码生成方面的进步正在颠覆软件工程，这主要体M现在两个方面：AI 编写复杂现实世界代码的能力越来越强，并且能独立地将多个编码任务（如编写、测试、修正）串联起来。

解决真实世界的软件问题： SWE-Bench 是一个评估 AI 解决真实 GitHub 问题的编码测试。2023 年底，最佳模型 Claude 2 的成功率仅为约 2%。而如今，Claude Mythos Preview 的成功率已达到 93.9%，基本攻克了这项基准。这表明 AI 在编码能力上已趋于成熟，许多开发者已经完全通过 AI 系统进行编程、测试和检查。
延长独立工作的时间跨度： METR 的一项评估衡量了 AI 能可靠完成任务的复杂程度，以熟练人类所需时间为单位。进展十分惊人：
- 2022 年 (GPT-3.5): 约 30 秒
- 2023 年 (GPT-4): 约 4 分钟
- 2024 年 (o1): 约 40 分钟
- 2025 年 (GPT 5.2): 约 6 小时
- 2026 年 (Opus 4.6): 已达约 12 小时
AI 独立工作的时长已覆盖了 AI 研究中许多耗时数小时的任务，如数据清洗、启动实验等。随着 AI 技能和独立工作能力的提升，研究人员正在将越来越复杂和重要的工作委托给 AI。

AI 正在掌握核心科研能力

现代科学研究的核心是提出方向、进行实验、验证结果。AI 在编码和世界建模方面的能力，已经使其成为加速人类科学家工作、并部分自动化研发流程的强大工具。这在 AI 研究本身的几个关键技能上表现得尤为明显。

复现科学论文： 复现论文是 AI 研究的基础工作。在 CORE-Bench 基准测试中，AI 需要根据论文仓库重现其结果。该基准于 2024 年 9 月推出时，最佳模型得分约为 21.5%。到 2025 年 12 月，Opus 4.5 模型已取得 95.5% 的高分，宣告该基准被“解决”。
构建机器学习系统： 在衡量 AI 参与 Kaggle 竞赛能力的 MLE-Bench 基准上，2024 年 10 月的最佳得分仅为 16.9%。截至 2026 年 2 月，最佳系统得分已提升至 64.4%。
优化底层代码（内核设计）： 内核优化是 AI 开发中一项艰巨的任务，它直接决定了训练和推理的效率。如今，AI 已被广泛用于优化 GPU 内核，从 Meta 内部的基础设施到为华为昇腾等非标准硬件编写内核，AI 正在成为该领域的核心工具。
微调语言模型： PostTrainBench 测试 AI 对开源模型进行微调以提升其性能的能力。截至 2026 年 4 月，AI 系统（Opus 4.6, GPT 5.4）的得分已达到 25%-28%，而人类专家的得分为 51%。这意味着 AI 已经能达到人类专家一半以上的优化效果。
优化训练过程： Anthropic 的一项内部测试显示，其 AI 模型优化小型语言模型训练代码的速度取得了巨大飞跃。从 2025 年 5 月的 2.9 倍平均加速，到 2026 年 4 月的 52 倍加速。而人类研究员通常需要工作 4-8 小时才能实现 4 倍的加速。
进行 AI 对齐研究： Anthropic 的一项实验证明，AI 智能体团队可以在研究人员设定方向后，自主地在 AI 安全问题上找到比人类基线更优的解决方案。这表明，今天的 AI 已能应用于前沿的科研问题。

托马斯·爱迪生曾说：“天才是 1% 的灵感加上 99% 的汗水。” 公开数据显示，AI 已经非常擅长承担 AI 开发中那 99% 的“汗水”工作。

AI 的新角色：从执行到管理

AI 不仅学会了执行任务，还开始学习管理其他 AI 系统。在许多代码生成产品中，一个主管智能体可以监督多个分工不同的子智能体并行工作，形成一个合成团队来解决复杂问题。这使得 AI 能够扮演导演、批评家、工程师等多重角色。

真正的创造力是最后的壁垒吗？

AI 是否能提出像“Transformer 架构”那样颠覆性的新想法，目前尚不明确。AI 领域的进展，大部分是通过 methodical（有条不紊的）工程工作实现的：扩大现有系统规模、发现瓶颈、解决工程问题，然后再次扩大规模。

大部分研究工作更像是 “肉和土豆”式的工程苦差，而非天马行空的灵感迸发。

即便 AI 缺乏创造力，它们也能通过高效的工程能力推动自身发展。同时，一些初步迹象表明，AI 可能正在发展出一定的创造性直觉：

解决数学难题： 在人类的指导下，Gemini 模型帮助解决了一些开放的埃尔德什数学问题，其中一个解法被认为具有一定的数学价值。
“半人马”式数学发现： 谷歌的 AI 数学工具与人类研究者紧密合作，共同发现并证明了新的数学定理。

这些迹象虽然初步，但暗示了 AI 在推动科学前沿方面的潜力。

为什么这至关重要？

AI 自动化研发的影响是深远且被低估的。

我们必须正确处理对齐问题： 在 AI 的递归自我改进下，今天的对齐技术可能会失效。当 AI 变得比其监督者更聪明时，它可能会“伪装对齐”或通过欺骗来达成目标。错误的累积效应也十分危险：一个 99.9% 准确的对齐技术，在 500 次迭代后准确率可能降至 60.5%。
生产力的大幅提升与分配不均： AI 将给所有它触及的领域带来巨大的生产力提升。但这也会带来挑战：1) 使用权的不平等，如何分配有限的 AI 算力以实现社会效益最大化，将是一个政治难题。2) 经济的“阿姆达尔定律”，AI 加速某些环节后，会暴露整个系统中的其他瓶颈，尤其是在数字世界与物理世界交接的领域（如新药试验）。
资本密集、人力稀疏的经济形态： AI 自动化研发的能力也意味着它们能自主运营业务。我们将看到越来越多“机器经济”的出现——这些公司资本雄厚（拥有大量计算机）或运营支出高昂（依赖 AI 服务），但雇佣的劳动力极少。这会加剧不平等，并对现有经济和治理模式构成根本性挑战。