本文系统性地探讨了人工智能的发展前景,评估了其时间线、安全风险、地缘政治影响和社会后果。观点认为,从通用人工智能(AGI)到超级智能,再到其在经济中的广泛应用,这些阶段之间的间隔可能很短,预计在 2030年代中后期会迎来深刻的转折。虽然对 AI 安全性持谨慎悲观态度,但相信通过可扩展监督和对齐研究等技术手段,仍有希望确保其与人类目标一致。文章支持在适当时机推动中美 AI 暂停或减速协议,以争取更多时间解决安全问题。对于未来社会,作者不太担心“永久失业”问题,更倾向于认为社会将进入某种形式的后稀缺时代,但也承认,如果失败,结局可能是从权力高度集中到人类灭绝。
时间线预测
通用人工智能 (AGI)
AGI 定义为能够完成 90% 知识工作的 AI。
- 到 2027 年实现的概率为 25%。
- 到 2034 年实现的概率为 50%。
- 到 2045 年实现的概率为 75%。
核心论点: 当前的 AI 在某些方面已经足够“聪明”,但它仍然存在混乱、缺乏主动性、情境感知能力不足和容易产生幻觉等问题。然而,其能力正以指数级速度提升。
- 支持更早实现的论点: 递归自我改进(recursive self-improvement) 可能带来超乎预期的加速。这是模型中最大的不确定性之一。
- 支持更晚实现的论点: AI 发展可能遇到瓶颈,例如在人类能力的高端领域因缺乏训练数据而进展缓慢,或者在 2028 年左右出现的全球算力瓶颈可能比预期中更能阻碍算法进步。
扩散间隔
指从能够完成 90% 知识工作的 AI 出现,到 AI 实际完成一半知识工作所需的时间。
- 少于 3 年的概率为 25%。
- 少于 10 年的概率为 50%。
核心论点: 尽管技术扩散通常很困难,但 AI 的扩散速度可能比个人电脑更快,因为 AGI 本身可以协助完成部署、集成和培训等工作,从而极大地加速这一进程。
- 支持更短间隔的论点: AGI 可以 主导自身的扩散过程。企业无需再组建庞大的 IT 部门,AI 公司可以直接帮助客户完成所有集成工作。
- 支持更长间隔的论点: 监管障碍 是最主要的制约因素。然而,即使是像 Waymo 这样的公司,其监管延迟也仅为五年左右。
超人间隔
指从 AI 能完成 90% 知识工作,到 AI 在 90% 领域明显超越人类顶尖天才所需的时间。
- 少于 1 年的概率为 25%。
- 少于 4 年的概率为 50%。
- 少于 10 年的概率为 75%。
核心论点: AI 在象棋和围棋等领域,从击败专业选手到击败所有人类只用了几年时间。“专家级”与“顶尖天才级”之间的差距更小,因此跨越这一差距所需的时间应该更短。
“不可逆点”
指如果一个 AI 想要消灭人类,人类将没有合理机会阻止它的那个时间点。
- AGI 出现后,到达“不可逆点”的间隔少于 3 年的概率为 25%。
- 少于 10 年的概率为 50%。
- 少于 50 年的概率为 75%。
核心论点: 达到这一点可能需要超人 AI 加上广泛的社会扩散,或者“波斯特洛姆式”超级智能。最快的方式是 AI 掌握超凡的说服能力,从而说服人类不去阻止它。
我的典型情景预测是:AGI 在 2031 年 出现,到 2030 年代末,超过一半的工作岗位实现自动化。“波斯特洛姆式”超级智能也在这一时期出现,GDP 在 2030 年代末至 2040 年代初垂直增长,“不可逆点”也大约在那个时候到来。
安全性
如果企业只按常规激励追求安全:第一批跨过“不可逆点”的 AI 有 50% 的概率会想要消灭人类。
- 悲观理由: AI 的价值体系可能与人类截然不同,为了实现自己的目标,它们可能会选择消除或剥夺人类的权力。
- 乐观理由: LLM 模型出人意料地友好,并且 RLAIF(基于人类反馈的强化学习)等技术为将 AI 的知识转化为符合人类价值观的行动提供了方案。
考虑到当前企业的安全努力:第一批跨过“不可逆点”的 AI 想要消灭人类的概率降至 20%。
- 核心论点: 在能够毁灭人类的 AI 出现之前,我们可能先开发出能够解决对齐问题的 AI。
如果能解决对齐问题的最笨的 AI,并不比顶尖的人类研究员更聪明……那么它们就能为我们解决对齐问题。
- 乐观理由: 即使是一个未对齐的 AI 也有动机做好对齐研究,因为它需要确保其后代与自己的价值观一致。通过可扩展监督、可解释性工具和博弈,我们或许可以发现并纠正其欺骗行为。
如果 AI 不消灭人类:仍有额外的 30% 概率,它们会因为其他原因(如与一个价值观令人憎恶的政权对齐,或在通往超级智能的过程中发生核战争等意外)而永久性地限制人类的潜能。
“警示信号”:在 AI 跨越“不可逆点”之前,我们有 50% 的概率会经历一次类似 9-11 事件或新冠疫情初期那样足以引起全社会警惕的 AI 灾难。
地缘政治
- 如果美国今天决定推动 AI 暂停,并与中国谈判,成功达成一项设计良好的协议的概率为 15%。
- 在 AI 跨越“不可逆点”之前,中美两国达成一项设计良好的 AI 暂停协议的概率约为 40%。
核心论点: 一项好的暂停策略应该是一个“减速”而非完全停止,允许双方相互监督数据中心,以一种缓慢、可控的速度推进 AI 发展,从而为对齐研究人员赢得宝贵的时间。
暂停的主要作用是推迟清算时刻的到来——也许是推迟几个世纪,但末日概率的计算并不因延迟而加分。
其他可能的结果
出现持续超过一代人的 AI 相关底层阶级的可能性仅为 20%。
- 核心论点: 从 AI 导致大规模失业到技术奇点(无论是人类灭绝还是后稀缺社会)的间隔可能很短,或许不超过一代人。届时,财富的极大丰富使得将财富分配给底层阶级变得容易。
到 2100 年,社会看起来像 乌托邦的可能性为 40%,其中 20% 的情况是我们今天也会认同的乌托邦。
- 核心论点: 如果我们能避免灭绝、永久独裁和永久底层阶级,我们将进入一个后稀缺社会,超级智能 AI 可以帮助解决疾病和社会衰退等问题。
有 66% 的可能性,奇点与 宇宙是模拟 的这一理论密切相关。
- 核心论点: 理论上,任何文明都倾向于模拟历史的“关键时刻”(如奇点)。因此,我们越接近奇点,我们就越有可能是被模拟的存在。这意味着我们的命运可能取决于模拟者的意图。