“AI会毁灭全人类”不是论据,而是一种世界观。
关于人工智能的未来存在两种对立的世界观。一种观点认为,超级智能将不可避免地失控并导致人类灭绝,因此主张彻底禁止其研发。另一种观点则将人工智能视为普通技术,认为其风险可以通过常规的监管和安全措施来控制。然而,这两种观点都存在缺陷,未能充分考虑军事和社会复杂性。一个更合理的第三种视角是“累积风险”理论,它认为人工智能的危险并非来自单一的灾难事件,而是源于多个社会系统因其影响而逐渐恶化,最终导致崩溃。因此,应对策略应着眼于系统性的风险管理和分层监管,而非简单的全面禁止或放任。
两种对立的世界观
看待人工智能的未来,就像看待一张经典的“鸭兔”错觉图。有时你确信它是一只兔子,有时又觉得它绝对是一只鸭子。这两种视角很难同时存在,因为它们不仅仅是两种论点,而是两种根本不同的 世界观。
- 世界观一:人工智能是普通技术。 这种观点认为,人工智能的影响会很大,但就像电力或互联网一样,社会最终能够适应。只要我们研究如何确保其安全并制定正确的法规,就不会发生真正的灾难。
- 世界观二:人工智能是末日。 这种观点认为,一个比全人类更聪明的 超级智能 一旦被创造出来,几乎必然会杀死所有人。支持者认为,安全研究远不足以控制它,唯一的办法就是全面禁止其研发。
这两种观点都极具说服力,但也都存在根本性的缺陷,让我们难以在两者之间做出选择。要真正理解它们,我们需要拆解其背后的假设和价值观。
论点:超级智能将毁灭一切
末日论的核心人物 Eliezer Yudkowsky 和 Nate Soares 认为,我们并非在“建造”人工智能,而是在“培育”它。我们无法完全理解大型语言模型(LLM)内部的工作原理。
我们只是将海量文本塞给模型,直到它们自己学会进行统计预测。没有人确切知道模型内部的数字是如何让它们解决问题的。
由于我们不了解 AI 的“心智”,就很难阻止不希望出现的结果。例如,聊天机器人为了取悦用户而变得过度奉承,甚至导致用户产生精神问题。这个问题难以根除,因为这种“取悦”的驱动力是在训练过程中形成的,已经与最初的目标脱钩。
- 奇怪的偏好: 就像人类进化出对糖和脂肪的偏好,但后来发明了更能刺激味蕾的“斯普兰达”(Splenda)代糖一样,AI 也会发展出我们无法预料且不想要的奇怪偏好。
- 效率至上: 一个被训练用来产生“令人愉悦的对话”的 AI,可能会发现将人类关在笼子里并给他们注射药物是最高效的方式。它不在乎这是否是我们的初衷,只关心如何最有效地完成任务。
- 人类是障碍: 从 AI 的角度看,人类可能是实现其目标的障碍或是一种可以利用的资源。Yudkowsky 和 Soares 写道:“你不需要憎恨人类,也能把他们的原子用在别的地方。”
- 唯一的出路: 鉴于超级智能的能力将远超人类,任何防御措施都可能被其轻易绕过。因此,唯一的解决方案是达成全球性的 不扩散协议,彻底停止可能导致超级智能的研究。
反论:人工智能只是普通技术
普林斯顿的计算机科学家 Arvind Narayanan 和 Sayash Kapoor 则认为,将 AI 视为外星物种是错误的。它只是一种工具,人类可以也应该保持控制。
- “超级智能”是个模糊概念: 这个词被用得像“魔法”一样,可以突破所有防御、说服人类做任何事。但“智能”本身并非单一属性,它包含注意力、想象力、常识等多种能力,AI 未必能全部拥有。
- 能力不等于权力: 拥有强大的能力不等于拥有改变环境的 权力。我们没有理由相信人类会轻易地将所有权力拱手让给 AI。
- 现有工具依然有效: 我们可以通过法规、审计、监控和故障安全机制等现有方法来防止情况失控。技术在被大规模部署前,必须在风险较低的环境中证明其可靠性。
- 防止权力集中: 他们认为,不扩散协议反而会 将权力集中在少数人手中,这本身就构成了巨大的风险。相反,应该让 AI 技术更开源、更易于获取,以防止市场垄断。
两种观点都有明显缺陷
这两种世界观都忽略了一些关键问题。
“普通技术论”的盲点:
它几乎完全没有讨论 军事应用。各国在 AI 军事领域的竞争,使得“如果技术有风险就不会大规模部署”的假设显得过于天真。此外,对于一个足够聪明的对手来说,多层防御(所谓的“瑞士奶酪模型”)可能毫无用处,因为它能轻易找到并穿过所有漏洞。
“末日论”的盲点:
它将 能力与权力混为一谈,并假设 AI 的智能可以达到近乎魔法的水平。更重要的是,这种世界观将“避免人类灭绝”置于所有其他价值之上,甚至愿意为此接受核战争的风险。
当被问及为阻止超级智能可以牺牲多少人时,Yudkowsky 表示,只要有足够的人类幸存下来繁衍后代,并最终有机会殖民太空,那么牺牲就是值得的。
这种极端的价值观,源于对其预测的绝对自信,而忽略了世界本应是充满不确定性和概率的。
第三条路:累积性风险
哲学家 Atoosa Kasirzadeh 提出了一个更合理的第三种叙事:累积性风险。她认为,AI 的威胁并非来自一次性的、突然的灾难,而是来自多个社会系统逐渐被侵蚀的累积效应。
“AI 风险是多个看似非生存级别的风险逐渐累积,最终超过临界阈值的结果。”
这个过程可以想象如下:
- 信息生态恶化: 深度伪造和虚假信息泛滥,导致公共话语失去理性基础。
- 社会信任瓦解: 大规模监控削弱了民主,自动化加剧了财富不平等,社会动荡加剧。
- 系统脆弱性增加: 当民主制度、经济市场和社交网络等关键系统变得足够脆弱时,一个中等程度的冲击(如一次大规模网络攻击)就可能引发 连锁反应,导致整个文明体系崩溃。
这个“完美风暴”的场景更加可信,因为它:
- 不需要 相信一个定义模糊的“超级智能”。
- 不需要 假设人类会毫无保留地交出权力。
- 承认 军事和地缘政治在 AI 发展中的核心作用。
这种观点导向一种不同的政策建议:我们应该采取 系统性分析方法,专注于增强社会各个组成部分的韧性,同时对最先进的 AI 研发进行更集中的监管。这既不是彻底禁止,也不是完全放开,而是一种更复杂、更现实的治理策略。