Synth Daily

AI 未来走向模型:2025 年 12 月更新

这份内容介绍了一款名为“AI Futures Model”的升级版人工智能能力预测模型。该模型通过统一的框架,预测人工智能发展的关键里程碑,例如实现全自动编码(AC)和超级智能(ASI)的时间。与旧模型相比,新模型对人工智能研发自动化的影响评估更为保守,导致其预测的全自动编码实现时间中位数推迟了约3-5年,至2031-2032年左右。模型的核心在于综合考量了计算资源、人力、数据瓶颈以及AI自我改进等因素,并结合了创作者的直觉进行调整,最终认为虽然未来几十年内实现AI全面自动化和超级智能的可能性很大,但具体时间线仍充满不确定性。

为什么要进行建模?

预测未来极为困难,任何模型都不应被完全信任。模型只是将我们认为最重要的动态和因素纳入考量,但无法涵盖所有情况。此外,模型中的许多参数并非基于实证数据,而是直觉猜测。

我们认为建模工作很重要。我们的整体观点是权衡了许多因素和论点的结果;模型是一种透明、明确地进行这种权衡的方式,而不是在我们头脑中凭空想象。

通过构建和改进模型,我们能够更好地理解哪些趋势和论点最为关键,并随着新数据的出现而不断更新我们的预测。实际上,新模型相较于旧模型做出的改进,比新观测到的经验证据对我们观点的影响更大,这直接导致全自动编码的中位预测时间推后了2-4年。

不同的预测方法比较

形成对未来的预测有多种途径,每种都有其优缺点。

  • 信任专家: 专家之间并无共识。2023年的一项调查显示,根据问题的不同提法,专家们对AGI(通用人工智能)实现时间的中位预测在2047年到2116年之间大幅波动。而技术前沿的公司(如Anthropic和OpenAI)则更为激进,提出了2027年或2028年的预测。
  • 基于论证的直觉: 当前范式能否扩展到AGI?是否缺少常识或真正的原创思维?这类方法依赖于个人对各种论点和事实的消化与权衡。虽然直觉很重要,但量化模型有助于整合众多因素,并判断哪些论点最值得关注。
  • 收入外推法: 一个简单的想法是外推AI行业的收入增长,直到它占全球GDP的大部分。根据Epoch的数据,前沿AI公司的收入目前约为200亿美元,年增长约4.1倍。按此简单推算,到2031年底,年化收入将达到100万亿美元。
  • 基于大脑的计算外推法: 这种方法通过估算模拟人脑所需的计算量来预测AGI的到来。早期的预测者如 Hans MoravecRay Kurzweil 在2000年左右就预测AGI将在2020年代末出现。后来的 Ajeya Cotra 的“生物锚点”报告则通过估算训练人脑所需的计算量,得出了2050年的中位预测。
  • 能力基准趋势外推法: 这是我们采用的方法。我们认为,现在有比与人脑比较更好的证据:可以直接外推AI在基准测试上的表现。我们主要使用METR的编码时间范围套件(METR-HRS)来设定AGI所需的有效计算量。

我们的模型如何运作

模型的核心输出是AI在自动化和加速AI软件研发方面的能力轨迹。整个过程可以分为三个直观的阶段。

第一阶段:自动化编码

此阶段预测 全自动编码器(Automated Coder, AC) 的到来。AC指的是能够完全自动化AGI项目编码工作的AI,取代所有人类程序员。

我们的起点是外推METR图表的指数增长趋势,但模型会考虑更多复杂因素:

  • 投入增长的放缓: 计算、人力、数据等资源的增长不会永远保持高速,可能会因芯片生产、投资、能源等限制而减速。
  • AI研发的自动化: AI本身正在加速研发工作,这可能导致趋势向上弯曲。
  • 超指数增长: 最终,AI系统将在所有时间跨度上超越人类,因此趋势最终应在有限时间内趋向无穷大。我们的模型默认使用超指数趋势。

第二阶段:自动化研究品味

除了编码,AI研发还需要 研究品味(research taste) ——即设定研究方向、选择实验和从实验中学习的能力。

此阶段预测从AC到 超人AI研究员(Superhuman AI Researcher, SAR) 的速度。SAR可以完全自动化AI研发,使所有人类研究员变得多余。这个阶段的速度主要取决于:

  • 编码自动化带来的研发提速程度。
  • AC被创造时,AI的研究品味水平。
  • AI研究品味的提升速度。

第三阶段:智能爆炸

当AI研发被完全自动化后,模型将进入第三阶段,模拟AI自我改进的速度,直至达到智能的极限。

此阶段的关键里程碑包括:

  • 超智能AI研究员(SIAR): 其能力远超顶尖人类研究员。
  • 顶级人类专家主导AI(TED-AI): 在几乎所有认知任务上都至少与顶尖人类专家一样出色。
  • 人工超级智能(ASI): 在几乎所有认知任务上,其能力超越最优秀人类的程度,是后者超越普通专业人士的两倍。

在我们的模拟中,我们看到了从SAR到ASI仅需数月的快速爆发,到智能爆炸最终 fizzle out(逐渐消失)需要更多计算资源才能达到ASI的各种结果。

快速爆发通常需要一个正反馈循环,其中能力翻倍所需的时间越来越短。这主要取决于 AI研究品味的提升速度 是否能超过 新研究思路变得更难发现 的速度。

预测与个人观点

模型的结果可以在官方网站上查看,但创作者也结合了个人直觉进行了调整。

Eli 的观点

  • 时间线: 将模型的中位预测从2030年底推迟到 2032年中。主要原因是考虑到模型未知的局限性、潜在错误以及数据瓶颈。他的最终分布是:10%可能性在2027.5年,50%可能性在2032.5年,90%可能性在2085年。
  • 爆发速度: 略微调快了爆发速度的预测。将AC到ASI在1年内完成的概率从26%提高到30%,在3年内完成的概率从43%提高到60%。主要原因是模型未考虑硬件研发自动化和整体经济自动化的影响。

Daniel 的观点

  • 时间线: 总体上采纳了模型的输出,但增加了不确定性。他认为在2026年底前发生剧变的可能性为9%,而到2050年仍未实现AGI的可能性为6%。
  • 核心担忧: Daniel对过度依赖METR趋势数据感到紧张,因为该趋势如何外推以及如何解读都存在不确定性。此外,他认为更好的衡量指标是“编码效率提升”,但目前缺乏相关数据。
  • 直觉冲突: 他的直觉认为AC里程碑离我们不到5年,但模型的输出更长。他选择相信模型,但仍保留了对直觉的重视。
  • 爆发速度: 与Eli类似,他认为模型预测的爆发速度可能偏慢,因为在更长的时间线上,届时积累的巨大计算资源可能会导致极快的爆发。

与旧版(AI 2027)模型的比较

新模型(AI Futures Model)的预测比之前的AI 2027模型更为保守。

时间线差异

  • 中位预测推迟: 新模型对“超人编码员”(SC)的中位预测比旧模型晚了约4年(2032年初 vs. 2028年初)。
  • 主要原因: 这种差异主要源于新模型对 SC实现前AI研发自动化效果的建模更为悲观。旧模型高估了早期AI对研发的加速作用。

导致时间线延长的具体因素分解如下:

  • AI自动化效果减弱: 约占2年。新模型更恰当地考虑了软件研究的“收益递减”,并修正了旧模型中的一个错误。
  • 参数更新: 约占1年。
  • 计算与人力投入预测调整: 约占1年。新模型预测的顶尖AI项目计算和人力增长速度较慢。
  • 引入实验计算瓶颈: 约占1年。旧模型只考虑了人力作为投入。

爆发速度差异

新模型预测的从SC到ASI的中位爆发时间比旧模型慢,但分布更广,对极快或极慢爆发的预测概率都较低。这主要是因为新模型引入了计算资源增长的因素。

新模型的核心在于一个更复杂的框架,用于判断是否存在“软件智能爆炸”(SIE)或“纯品味奇点”(TOS)。在新模型的框架下,中位预测并不支持一个仅靠品味提升就能自我加速的奇点。不过,模型中仍有 38% 的模拟显示自我加速的反馈循环会发生。