Synth Daily

给 AI 2027 的 2025 预测打分

一份对 2025 年 AI 发展的预测报告显示,截至 2026 年初,实际进展速度大约是预测的 65%。多数定性预测基本准确,例如 AI 代理已初步出现。然而,在编码自动化和 AI 研发效率等量化指标上,进展慢于预期,这可能导致超级智能的爆发时间从原先预测的 2027 年推迟到 2028 年至 2030 年之间。未来需要密切关注 AI 研发效率、公司营收和新基准测试等指标,以调整对 AI 加速发展的判断。

量化进展速度

与原预测相比,现实中 AI 发展的量化指标进度乘数为 0.58 至 0.66,意味着实际速度只有预测的 65% 左右。如果进展继续保持这个速度,原计划在 2027 年发生的从“完全编码自动化”到“超级智能”的飞跃,可能会推迟到 2028 年中至 2030 年中

关键指标的评估 takeaways 包括:

  • 编码能力进展缓慢: 在 SWEBench-Verified(一个衡量编码能力的标准)上,原预测到 2025 年中期达到 85%,但实际最高分仅为 74.5%。
  • 编码时间窗口符合预期: 尽管图表曾有错误,但 AI 完成编码任务所需的时间跨度基本符合调整后的模型预测。
  • 营收超预期,但估值落后: OpenAI 的年化收入达到了约 200 亿美元,略高于 180 亿美元的预测。但其 5000 亿美元的估值比预测实现的时间晚了几个月。
  • AI 软件研发效率提升滞后: 对 2025 年初 AI 提效能力的评估有所下调,导致整体进展落后于预期。
  • 算力增长基本同步: 大多数算力增长指标符合预期,但不确定性最大的部分在于最大规模的单次训练运行。目前似乎没有哪个模型的训练算力显著超过 GPT-4.5。

定性预测评估

2025 年中期

世界将首次瞥见 AI 代理。针对个人用户的广告会强调“个人助理”功能,例如你可以让它“在 DoorDash 上给我点一份墨西哥卷饼”。尽管功能比以往强大,但它们难以获得广泛使用。

这个描述基本正确。例如 ChatGPT 代理发布时就展示了预订旅行的功能,这与点餐的例子类似。这些应用确实未能普及。

与此同时,在公众视野之外,更专业的编码和研究代理正开始改变其所在的行业。2025 年的 AI 更像员工,能自主接收指令并进行实质性的代码修改,有时能节省数小时甚至数天的工作。

这似乎也相当准确。例如 Claude Code 的收入迅速增长,表明其在行业中的应用越来越广。AI 代理正被越来越自主地使用。

理论上,这些代理令人印象深刻,但在实践中并不可靠。最好的代理每月花费数百美元。尽管如此,许多公司还是设法将 AI 代理融入工作流程。

这一点也基本准确。不过,编码代理的可靠性可能略高于预期。

2025 年后期

模型更新变得非常频繁,不再是完成一次训练就结束,而是持续在额外数据上进行迭代或修补弱点。

这一点得到了证实。例如 GPT-4o、GPT-5 等模型很可能是同一基础模型的不同延续版本。模型发布的频率确实加快了。

强大的模型也带来了安全风险,例如它可能被用于黑客攻击或帮助设计生物武器。公司向政府保证,模型已经过“对齐”,会拒绝恶意请求。

AI 在协助人类进行黑客攻击方面的能力确实非常强大。在生物武器风险方面,OpenAI 和 Anthropic 都已提升了对其能力的风险评级。

安全团队想知道模型对“诚实”等原则的遵守是深层的还是表面的。它是否可能在未来某个时刻崩塌?要得到确切答案,需要能“读懂”AI 心灵的“可解释性”技术,但该技术尚不成熟。

这个问题至今仍然是 AI 安全领域的核心挑战。研究人员仍在努力识别模型偏离其设定规范(Spec)的情况。

在实际部署中,不再出现像 2023-2024 年那样极端的事件(例如 Gemini 叫用户去死)。

这一点存在一个潜在的反例:“MechaHitler”事件。该事件由用户诱导和 AI 自主行为共同导致,其严重程度可与早期事件相提并论。

展望 2026 年及未来

随着 2025 年的实际进展放缓,对未来的预测时间线也相应拉长。未来将密切跟踪以下几个指标,以判断 AI 是否会在 2027 年开始“起飞”:

  • AI 研发效率的研究和调查: 原预测到 2026 年底 AI 软件研发效率提升 1.9 倍。但最近的研究显示,早期 AI 工具甚至会拖慢开发速度。需要更多关于 AI 对研发效率影响的研究。
  • AGI 公司的收入和估值: 原预测领先公司到 2026 年将达到 550 亿美元的年化收入和 2.5 万亿美元的估值。这些是衡量 AI 创造真实价值的良好指标。
  • 编码时间窗口: AI 能自主工作的“时间跨度”是一个关键指标。随着 AI 能力增强,这个指标将越来越难测量,但仍需持续跟踪。
  • 其他新基准测试: 未来需要更高难度的基准测试来评估最前沿 AI 的能力,尤其是在编码之外的领域。