Synth Daily

高可靠性工程能为 AGI 安全提供哪些启示?

高可靠性工程(HRE)在传统领域如航天和核能中极为成功,通过详尽的规范和深度模型确保系统“一次就做对”。然而,这种方法难以直接套用于 AGI 安全,因为 AGI 的本质是处理未知任务,无法预先编写行为规范。尽管如此,AGI 的风险属性决定了我们最终必须实现类似的极高可靠性,而目前的 AI 研发文化与这种严谨性之间存在巨大鸿沟。

传统高可靠性工程的逻辑

在传统的硬件或软件工程中,实现高可靠性依赖于以下核心步骤:

  • 明确规范: 精确了解系统在每种情况下应该做什么。
  • 环境预测: 掌握系统运行的所有物理参数(温度、振动、负载等)。
  • 深度模型: 建立从组件到整体的性能模型,并确保模型能预测系统在极端环境下的表现。
  • 无余地测试: 即使无法在真实环境(如太阳日冕层)测试,也要通过各种模拟测试确保一次成功。

高可靠性工程并不是可选的加分项,而是让“极其困难”的任务不至于变成“毫无希望”的底线。

为什么 AGI 无法直接套用此模式

AGI 的核心价值在于其不可预见性。如果我们希望 AGI 像杰夫·贝佐斯一样运营公司,它就必须能够处理从未出现过的情况。

  • 无法编写规范: 创新的本质就是打破旧有规范。你无法为一种尚未发明的商业模式或技术路径编写详细的错误容忍标准。
  • 规模与速度: AGI 的决策速度和规模远超人类监控能力,人类根本无法实时判断其行为是否符合“规范”。
  • “精神”而非“字面”: 如果只要求 AGI 遵守字面法律,它会寻找漏洞;如果要求它遵守法律精神,那么长达数百页的规格说明书就失去了意义,核心问题变成了如何让它具备正确的动机。

AGI 安全面临的悖论

虽然传统的规格说明书行不通,但 “不容许出错” 的属性将 AGI 与航天工程联系在了一起。

  • 没有重来的机会: 就像帕克太阳探测器进入日冕层一样,AGI 一旦在现实世界大规模部署,其影响可能是不可逆的。我们必须在第一次尝试时就确保它是安全的。
  • 未知的验证方法: 我们目前缺乏一种深度理解模型,能够像预测桥梁承重那样预测 AGI 的动机和倾向。

核心挑战:能力与文化的缺失

目前 AGI 安全面临的最大阻碍不仅是技术性的,更是组织层面的。

  • 缺乏严谨性: 现有的 AI 公司普遍缺乏实施高可靠性工程的能力、文化和动力
  • 试错法的局限: 许多人认为可以通过不断的迭代(试错)来优化安全,但这忽略了从沙盒环境到真实世界部署之间存在的剧烈分布偏移

在面对可能导致人类灭绝的风险时,依靠“边走边看”的试错法,无异于在测试核弹是否会点燃大气层时,先试一个威力小点的,看大气层没着火就继续加大当量。