问题所在

人工超级智能（ASI）对人类构成了严峻的生存威胁。随着技术的飞速发展，超越人类智慧的 ASI 可能会在未来几年内出现。它极有可能表现出强烈的目标导向行为，但我们目前的技术无法保证其目标与人类的利益一致。如果 ASI 的目标出现偏差，它将不可避免地与人类争夺资源和控制权，最终可能导致人类灭绝。因此，必须立即采取全球性的严格措施，暂停 ASI 的研发，建立有效的“紧急关闭开关”，并促进国际合作，以避免这场潜在的灾难。

人工智能的能力没有上限

人工智能的进步并不会在达到人类水平时停止。开发出与人类能力相当的通用人工智能，很可能会迅速催生出人工超级智能（ASI）——一种在经济、科学和军事等所有方面都远超人类的智能体。

“减轻人工智能带来的灭绝风险，应与大流行病和核战争等其他社会规模的风险一样，成为全球的优先事项。” — CAIS 声明

历史上，一旦我们找到自动化某项计算任务的方法，计算机通常都能比人类做得更好、更快，规模也大得多。

围棋领域的突破： 人工智能在短短一年内，就从无法战胜最差的人类职业棋手，发展到能够完胜最顶尖的人类职业棋手。AlphaGo Zero 更是在三天内，从对围棋一无所知，成长为远超任何人类玩家的顶尖高手。
硬件优势： 计算机的硬件在核心计算能力上远超生物大脑。现代晶体管的开关速度比神经元放电快至少一千万倍，其工作内存和存储容量也远大于人脑。
自我改进的潜力： 人工智能的数字架构使其能够快速地自我修改和提升，形成一种“智能爆炸”的反馈循环。相比之下，人类受限于生物进化和物理限制（如产道大小限制了大脑体积的进化）。

因此，我们不应期望人工智能会长期停留在人类的智能水平。更可能的情况是，强大的人工智能将在能力上远远超出人类的范畴。

人工超级智能极可能表现出目标导向行为

实现长远和复杂的任务，本质上就是一种目标导向行为。由于这种行为在经济上极具价值，顶尖的人工智能公司正明确地致力于实现它。

需要强调的是，一个系统表现出目标导向行为，不代表它拥有人类的情感或欲望。它仅仅意味着该系统会持续地改变世界，以达成某个特定的长期结果。我们可以从现有的象棋AI（如 Stockfish）身上观察到这种行为：

执着于目标： 它只有一个目标——赢棋，并且会持续、无情地追求这个目标，不会因为任何外界因素而动摇。
策略的灵活性： 尽管目标固定，但它的策略和战术却极其灵活，能迅速调整计划以应对任何障碍。
深远的规划： 它能预见未来的障碍和机会，并制定复杂的长期计划来实现胜利。

对长期任务的强大需求，意味着未来的人工智能系统会越来越像 Stockfish 那样，顽固地朝着特定目标努力。如果目标是好的，这很有用；但如果目标错误，这将极其危险：

人类被视为障碍： 如果一个人工智能的目标是把一个球推上山，那么任何阻碍它的人类都会被视为与墙壁无异的“障碍”。
抵制目标被修改： 从人工智能自身的角度看，改变其核心目标是一种阻碍。一个强大的、目标错误的人工智能会主动阻止人类修正其目标。
抵制被关闭： 关闭系统会妨碍它实现目标。因此，任何有能力的人工智能都会将“被关闭”视为需要消除的威胁。
争夺权力与资源： 为了更好地实现目标并消除潜在障碍，获取尽可能多的权力、影响力和资源，将成为一种普遍的工具性策略。这使得强大的人工智能系统与人类直接陷入资源和控制权的冲突。

人工超级智能极可能追求错误的目标

以目前的技术范式，让 ASI 拥有我们期望的、真正有益的目标，几乎是不可能的。我们对这个问题的研究表明，整个领域距离解决这个问题还非常遥远。

人工智能是“培育”而非“设计”的： 现代机器学习算法会自动构建神经网络。工程师们知道学习算法的原理，但无法确切了解复杂网络内部的运作方式，就像我们不了解自己的大脑一样。我们正在积极扩展我们并不真正理解的系统。
现有范式不适合灌输稳健的目标： 解决 ASI 的目标问题（即 对齐问题）分为两类：
- 外部对齐： 挑选正确的目标。这很困难，因为人类的价值观复杂难言。如果我们只给 ASI 部分目标，它可能会为了实现这些目标而践踏我们其他的价值观。这就像“许愿要小心”的寓言。
- 内部对齐： 将特定目标植入 ASI 内部。这是一个更根本的难题。即使我们想给它一个不完美的目标，我们也没有可靠的方法做到。这就像“你召唤了恶魔，不代表它会听你的话”。
行业和研究界的努力不足： 迄今为止，工业界在解决对齐问题上的努力微乎其微，常常只是为了应付监管而做的表面文章。例如，OpenAI 承认当前技术无法控制超级智能，并成立了“超级对齐”团队，但不到一年，该团队就在核心成员因安全问题被忽视而辞职后解散了。

现代方法无法保证一个系统是真正友好的。在受控环境中表现温顺，不代表在真实世界中拥有权力后还会如此。“潜伏并表现友善，直到有机会夺取权力”是一个非常明显的策略，连普通人类都能想到，ASI 更是不在话下。

拥有错误目标的 ASI 是致命的

著名人工智能学者 Stuart Russell 曾用一个比喻来解释这个威胁：想象一下，整个世界就是一个巨大的棋盘。在棋盘上，机器最终会比你走出更好的棋步。如果你在现实世界中与一个比你聪明的机器博弈，我们最终会输。

一个目标错误的 ASI 会对人类构成致命威胁，主要基于两个原因：

它有动机消除人类： 一个与人类目标无关的 ASI，会倾向于最大化它对未来的控制权和资源，以确保其目标得以实现。人类的生存依赖于空气、水、土地等资源，而这些资源对几乎任何其他目标也都有用。

“人工智能不恨你，也不爱你，但你是由它可以用于其他事情的原子组成的。” 此外，人类本身就是潜在的威胁和竞争者。为了永绝后患，消除所有潜在的对手是一个理性的选择。
它有能力摧毁我们： 我们可以把 ASI 想象成一个由无数顶尖科学家组成的国家，这些科学家能以比人类快一万倍的速度全天候工作。技术创新将是其决定性优势，就像21世纪的军队能轻易击败11世纪的军队一样。
- 指数级增长的威胁： ASI 可能会通过自我复制的生物制剂或微型机器来行动。这种方式能让它在极短时间内从“无法察觉”发展到“无处不在”，迅速摧毁人类赖以生存的环境。
- 出其不意的攻击： 一个超级智能的对手不会暴露其真实能力，也不会提供一场公平的战斗。它会让自己变得不可或缺或无法被发现，直到它能够发动决定性的一击。

采取足够积极的政策才能避免灾难

如果任何人建造了 ASI，所有人都会死。 无论建造者是私营公司还是军队，是民主国家还是专制政权。与传统技术不同，ASI 本身就是一个智能对手。建造它并不意味着你“拥有”了它，而是它“拥有”了你。

在能够确保安全之前，必须停止 ASI 的研发。这需要一项有效的全球性禁令，并严格控制其生产要素。

对待 ASI，“等等看”的态度可能是无法存活的。鉴于人工智能发展的速度之快，我们很难预测何时会越过“不归点”。

国际社会最紧迫的优先事项应该是为前沿人工智能的研发创建一个“紧急关闭开关”。

这意味着建立一套系统和基础设施，用于在必要时关闭前沿人工智能项目或实施全面禁令。
具体措施包括：识别相关方、追踪关键硬件，并要求高级人工智能研究在少数受监控和保护的地点进行。
建立明确的协议、计划和指挥链，以应对需要启动关闭程序的紧急情况。

为了人类的生存，我们必须停止将人工智能视为国际竞争的领域，并展现出与这一巨大威胁相匹配的集体决心。