我的 AI 观点

本文系统性地探讨了人工智能的发展前景，评估了其时间线、安全风险、地缘政治影响和社会后果。观点认为，从通用人工智能（AGI）到超级智能，再到其在经济中的广泛应用，这些阶段之间的间隔可能很短，预计在 2030年代中后期会迎来深刻的转折。虽然对 AI 安全性持谨慎悲观态度，但相信通过可扩展监督和对齐研究等技术手段，仍有希望确保其与人类目标一致。文章支持在适当时机推动中美 AI 暂停或减速协议，以争取更多时间解决安全问题。对于未来社会，作者不太担心“永久失业”问题，更倾向于认为社会将进入某种形式的后稀缺时代，但也承认，如果失败，结局可能是从权力高度集中到人类灭绝。

时间线预测

通用人工智能 (AGI)

AGI 定义为能够完成 90% 知识工作的 AI。

到 2027 年实现的概率为 25%。
到 2034 年实现的概率为 50%。
到 2045 年实现的概率为 75%。

核心论点： 当前的 AI 在某些方面已经足够“聪明”，但它仍然存在混乱、缺乏主动性、情境感知能力不足和容易产生幻觉等问题。然而，其能力正以指数级速度提升。

支持更早实现的论点： 递归自我改进（recursive self-improvement） 可能带来超乎预期的加速。这是模型中最大的不确定性之一。
支持更晚实现的论点： AI 发展可能遇到瓶颈，例如在人类能力的高端领域因缺乏训练数据而进展缓慢，或者在 2028 年左右出现的全球算力瓶颈可能比预期中更能阻碍算法进步。

扩散间隔

指从能够完成 90% 知识工作的 AI 出现，到 AI 实际完成一半知识工作所需的时间。

少于 3 年的概率为 25%。
少于 10 年的概率为 50%。

核心论点： 尽管技术扩散通常很困难，但 AI 的扩散速度可能比个人电脑更快，因为 AGI 本身可以协助完成部署、集成和培训等工作，从而极大地加速这一进程。

支持更短间隔的论点： AGI 可以 主导自身的扩散过程。企业无需再组建庞大的 IT 部门，AI 公司可以直接帮助客户完成所有集成工作。
支持更长间隔的论点： 监管障碍 是最主要的制约因素。然而，即使是像 Waymo 这样的公司，其监管延迟也仅为五年左右。

超人间隔

指从 AI 能完成 90% 知识工作，到 AI 在 90% 领域明显超越人类顶尖天才所需的时间。

少于 1 年的概率为 25%。
少于 4 年的概率为 50%。
少于 10 年的概率为 75%。

核心论点： AI 在象棋和围棋等领域，从击败专业选手到击败所有人类只用了几年时间。“专家级”与“顶尖天才级”之间的差距更小，因此跨越这一差距所需的时间应该更短。

“不可逆点”

指如果一个 AI 想要消灭人类，人类将没有合理机会阻止它的那个时间点。

AGI 出现后，到达“不可逆点”的间隔少于 3 年的概率为 25%。
少于 10 年的概率为 50%。
少于 50 年的概率为 75%。

核心论点： 达到这一点可能需要超人 AI 加上广泛的社会扩散，或者“波斯特洛姆式”超级智能。最快的方式是 AI 掌握超凡的说服能力，从而说服人类不去阻止它。

我的典型情景预测是：AGI 在 2031 年 出现，到 2030 年代末，超过一半的工作岗位实现自动化。“波斯特洛姆式”超级智能也在这一时期出现，GDP 在 2030 年代末至 2040 年代初垂直增长，“不可逆点”也大约在那个时候到来。

安全性

如果企业只按常规激励追求安全：第一批跨过“不可逆点”的 AI 有 50% 的概率会想要消灭人类。
- 悲观理由： AI 的价值体系可能与人类截然不同，为了实现自己的目标，它们可能会选择消除或剥夺人类的权力。
- 乐观理由： LLM 模型出人意料地友好，并且 RLAIF（基于人类反馈的强化学习）等技术为将 AI 的知识转化为符合人类价值观的行动提供了方案。
考虑到当前企业的安全努力：第一批跨过“不可逆点”的 AI 想要消灭人类的概率降至 20%。
- 核心论点： 在能够毁灭人类的 AI 出现之前，我们可能先开发出能够解决对齐问题的 AI。
如果能解决对齐问题的最笨的 AI，并不比顶尖的人类研究员更聪明……那么它们就能为我们解决对齐问题。
- 乐观理由： 即使是一个未对齐的 AI 也有动机做好对齐研究，因为它需要确保其后代与自己的价值观一致。通过可扩展监督、可解释性工具和博弈，我们或许可以发现并纠正其欺骗行为。
如果 AI 不消灭人类：仍有额外的 30% 概率，它们会因为其他原因（如与一个价值观令人憎恶的政权对齐，或在通往超级智能的过程中发生核战争等意外）而永久性地限制人类的潜能。
“警示信号”：在 AI 跨越“不可逆点”之前，我们有 50% 的概率会经历一次类似 9-11 事件或新冠疫情初期那样足以引起全社会警惕的 AI 灾难。

地缘政治

如果美国今天决定推动 AI 暂停，并与中国谈判，成功达成一项设计良好的协议的概率为 15%。
在 AI 跨越“不可逆点”之前，中美两国达成一项设计良好的 AI 暂停协议的概率约为 40%。

核心论点： 一项好的暂停策略应该是一个“减速”而非完全停止，允许双方相互监督数据中心，以一种缓慢、可控的速度推进 AI 发展，从而为对齐研究人员赢得宝贵的时间。

暂停的主要作用是推迟清算时刻的到来——也许是推迟几个世纪，但末日概率的计算并不因延迟而加分。

其他可能的结果

出现持续超过一代人的 AI 相关底层阶级的可能性仅为 20%。
- 核心论点： 从 AI 导致大规模失业到技术奇点（无论是人类灭绝还是后稀缺社会）的间隔可能很短，或许不超过一代人。届时，财富的极大丰富使得将财富分配给底层阶级变得容易。
到 2100 年，社会看起来像 乌托邦的可能性为 40%，其中 20% 的情况是我们今天也会认同的乌托邦。
- 核心论点： 如果我们能避免灭绝、永久独裁和永久底层阶级，我们将进入一个后稀缺社会，超级智能 AI 可以帮助解决疾病和社会衰退等问题。
有 66% 的可能性，奇点与 宇宙是模拟 的这一理论密切相关。
- 核心论点： 理论上，任何文明都倾向于模拟历史的“关键时刻”（如奇点）。因此，我们越接近奇点，我们就越有可能是被模拟的存在。这意味着我们的命运可能取决于模拟者的意图。