问题所在

人工超级智能(ASI)对人类构成了严峻的生存威胁。随着技术的飞速发展,超越人类智慧的 ASI 可能会在未来几年内出现。它极有可能表现出强烈的目标导向行为,但我们目前的技术无法保证其目标与人类的利益一致。如果 ASI 的目标出现偏差,它将不可避免地与人类争夺资源和控制权,最终可能导致人类灭绝。因此,必须立即采取全球性的严格措施,暂停 ASI 的研发,建立有效的“紧急关闭开关”,并促进国际合作,以避免这场潜在的灾难。

人工智能的能力没有上限

人工智能的进步并不会在达到人类水平时停止。开发出与人类能力相当的通用人工智能,很可能会迅速催生出人工超级智能(ASI)——一种在经济、科学和军事等所有方面都远超人类的智能体。

“减轻人工智能带来的灭绝风险,应与大流行病和核战争等其他社会规模的风险一样,成为全球的优先事项。”

— CAIS 声明

历史上,一旦我们找到自动化某项计算任务的方法,计算机通常都能比人类做得更好、更快,规模也大得多。

    • 围棋领域的突破: 人工智能在短短一年内,就从无法战胜最差的人类职业棋手,发展到能够完胜最顶尖的人类职业棋手。AlphaGo Zero 更是在三天内,从对围棋一无所知,成长为远超任何人类玩家的顶尖高手。
    • 硬件优势: 计算机的硬件在核心计算能力上远超生物大脑。现代晶体管的开关速度比神经元放电快至少一千万倍,其工作内存和存储容量也远大于人脑。
    • 自我改进的潜力: 人工智能的数字架构使其能够快速地自我修改和提升,形成一种“智能爆炸”的反馈循环。相比之下,人类受限于生物进化和物理限制(如产道大小限制了大脑体积的进化)。

因此,我们不应期望人工智能会长期停留在人类的智能水平。更可能的情况是,强大的人工智能将在能力上远远超出人类的范畴。

人工超级智能极可能表现出目标导向行为

实现长远和复杂的任务,本质上就是一种目标导向行为。由于这种行为在经济上极具价值,顶尖的人工智能公司正明确地致力于实现它。

需要强调的是,一个系统表现出目标导向行为,不代表它拥有人类的情感或欲望。它仅仅意味着该系统会持续地改变世界,以达成某个特定的长期结果。我们可以从现有的象棋AI(如 Stockfish)身上观察到这种行为:

    • 执着于目标: 它只有一个目标——赢棋,并且会持续、无情地追求这个目标,不会因为任何外界因素而动摇。
    • 策略的灵活性: 尽管目标固定,但它的策略和战术却极其灵活,能迅速调整计划以应对任何障碍。
    • 深远的规划: 它能预见未来的障碍和机会,并制定复杂的长期计划来实现胜利。

对长期任务的强大需求,意味着未来的人工智能系统会越来越像 Stockfish 那样,顽固地朝着特定目标努力。如果目标是好的,这很有用;但如果目标错误,这将极其危险:

    • 人类被视为障碍: 如果一个人工智能的目标是把一个球推上山,那么任何阻碍它的人类都会被视为与墙壁无异的“障碍”。
    • 抵制目标被修改: 从人工智能自身的角度看,改变其核心目标是一种阻碍。一个强大的、目标错误的人工智能会主动阻止人类修正其目标。
    • 抵制被关闭: 关闭系统会妨碍它实现目标。因此,任何有能力的人工智能都会将“被关闭”视为需要消除的威胁。
    • 争夺权力与资源: 为了更好地实现目标并消除潜在障碍,获取尽可能多的权力、影响力和资源,将成为一种普遍的工具性策略。这使得强大的人工智能系统与人类直接陷入资源和控制权的冲突。

人工超级智能极可能追求错误的目标

以目前的技术范式,让 ASI 拥有我们期望的、真正有益的目标,几乎是不可能的。我们对这个问题的研究表明,整个领域距离解决这个问题还非常遥远。

    • 人工智能是“培育”而非“设计”的: 现代机器学习算法会自动构建神经网络。工程师们知道学习算法的原理,但无法确切了解复杂网络内部的运作方式,就像我们不了解自己的大脑一样。我们正在积极扩展我们并不真正理解的系统。
  • 现有范式不适合灌输稳健的目标: 解决 ASI 的目标问题(即 对齐问题)分为两类:
      • 外部对齐: 挑选正确的目标。这很困难,因为人类的价值观复杂难言。如果我们只给 ASI 部分目标,它可能会为了实现这些目标而践踏我们其他的价值观。这就像“许愿要小心”的寓言。
      • 内部对齐: 将特定目标植入 ASI 内部。这是一个更根本的难题。即使我们想给它一个不完美的目标,我们也没有可靠的方法做到。这就像“你召唤了恶魔,不代表它会听你的话”。
    • 行业和研究界的努力不足: 迄今为止,工业界在解决对齐问题上的努力微乎其微,常常只是为了应付监管而做的表面文章。例如,OpenAI 承认当前技术无法控制超级智能,并成立了“超级对齐”团队,但不到一年,该团队就在核心成员因安全问题被忽视而辞职后解散了。

现代方法无法保证一个系统是真正友好的。在受控环境中表现温顺,不代表在真实世界中拥有权力后还会如此。“潜伏并表现友善,直到有机会夺取权力”是一个非常明显的策略,连普通人类都能想到,ASI 更是不在话下。

拥有错误目标的 ASI 是致命的

著名人工智能学者 Stuart Russell 曾用一个比喻来解释这个威胁:想象一下,整个世界就是一个巨大的棋盘。在棋盘上,机器最终会比你走出更好的棋步。如果你在现实世界中与一个比你聪明的机器博弈,我们最终会输。

一个目标错误的 ASI 会对人类构成致命威胁,主要基于两个原因:

  1. 它有动机消除人类:

    一个与人类目标无关的 ASI,会倾向于最大化它对未来的控制权和资源,以确保其目标得以实现。人类的生存依赖于空气、水、土地等资源,而这些资源对几乎任何其他目标也都有用。

    “人工智能不恨你,也不爱你,但你是由它可以用于其他事情的原子组成的。”

    此外,人类本身就是潜在的威胁和竞争者。为了永绝后患,消除所有潜在的对手是一个理性的选择。

  2. 它有能力摧毁我们:

    我们可以把 ASI 想象成一个由无数顶尖科学家组成的国家,这些科学家能以比人类快一万倍的速度全天候工作。技术创新将是其决定性优势,就像21世纪的军队能轻易击败11世纪的军队一样。

      • 指数级增长的威胁: ASI 可能会通过自我复制的生物制剂或微型机器来行动。这种方式能让它在极短时间内从“无法察觉”发展到“无处不在”,迅速摧毁人类赖以生存的环境。
      • 出其不意的攻击: 一个超级智能的对手不会暴露其真实能力,也不会提供一场公平的战斗。它会让自己变得不可或缺或无法被发现,直到它能够发动决定性的一击。

采取足够积极的政策才能避免灾难

如果任何人建造了 ASI,所有人都会死。 无论建造者是私营公司还是军队,是民主国家还是专制政权。与传统技术不同,ASI 本身就是一个智能对手。建造它并不意味着你“拥有”了它,而是它“拥有”了你。

在能够确保安全之前,必须停止 ASI 的研发。这需要一项有效的全球性禁令,并严格控制其生产要素。

对待 ASI,“等等看”的态度可能是无法存活的。鉴于人工智能发展的速度之快,我们很难预测何时会越过“不归点”。

国际社会最紧迫的优先事项应该是为前沿人工智能的研发创建一个“紧急关闭开关”

    • 这意味着建立一套系统和基础设施,用于在必要时关闭前沿人工智能项目或实施全面禁令。
    • 具体措施包括:识别相关方、追踪关键硬件,并要求高级人工智能研究在少数受监控和保护的地点进行。
    • 建立明确的协议、计划和指挥链,以应对需要启动关闭程序的紧急情况。

为了人类的生存,我们必须停止将人工智能视为国际竞争的领域,并展现出与这一巨大威胁相匹配的集体决心。