不可挽回性；或者，墨菲对 ASI 一次性特性的诅咒

在高风险、高复杂性的项目中，例如太空探索、国家战争乃至人工智能（AI）对齐，失败往往是不可挽回的。这些项目具有“一次性”的特征，即你只有一次尝试的机会，一旦关键环节出错，整个项目就会彻底失败，没有重来的可能。历史案例表明，即使我们从过去的经验中学习、进行充分的地面测试、并掌握了相关的物理规律，也无法完全避免灾难。因此，在面对像通用人工智能（AGI）对齐这样更未知、风险更致命的工程挑战时，我们必须承认其固有的不可逆转性和高脆弱性，而不是盲目相信可以通过少量测试或巧妙的补丁来化解风险。

案例一：维京1号着陆器

维京1号探测器在火星上运行了六年，电池开始老化。工程师们曾预见性地设计了一套方案：通过从地球发送无线电信号来更新探测器的软件，以应对这类突发问题。

计划： 1982年11月，地面中心向维京1号发送了一个软件更新，旨在优化其电池充电管理。
事故： 这个更新意外地覆盖了控制天线指向的软件。
结果： 天线不再对准地球，探测器无法再接收任何新的指令或补丁。用于纠正错误的机制本身被错误摧毁了。 与维京1号的所有联系永久中断。

这揭示了一个深刻的问题：为一个本质上遥远且无法物理接触的项目设计一个巧妙的“补丁系统”，并不能改变其根本的脆弱性。这就像给飞机装上翅膀，但并不能消除重力。一旦翅膀失灵，飞机仍然会坠落。

试图用软件更新来弥补太空探测器的“一次性”发射缺陷，并没有真正改变它无法被物理修复的本质。任何破坏纠错机制本身的问题，都会让你立刻回到最初的困境。真正的航天工程师深知这一点，所以他们以极度的审慎和偏执来进行准备，才偶尔能获得成功。

案例二：火星观察者号

火星观察者号在历时11个月的太空飞行后，于进入火星轨道前三天失联。事后分析认为，最可能的原因是在零重力环境下，燃料和氧化剂蒸汽泄漏并积聚，在发动机重启时引发了爆炸。

这是一个典型的“第一次做某件事”时可能发生的问题。每个新探测器都是为新任务定制的，这意味着每次都有新的、意想不到的出错方式。

为什么之前的经验和测试没能阻止这次失败？

经验的局限性： 尽管人类从以前的探测器中学到了东西，但那些探测器与火星观察者号并非完全相同。任务的根本新颖性没有被消除。
测试的局限性： 即使在真空室中进行了测试，也无法忠实地模拟出燃料蒸汽在零重力下泄漏并积聚11个月的确切条件。测试环境与部署环境永远存在差异。
科学的局限性： 尽管我们掌握了化学和物理学的基本定律，但这并不足以精确预测和控制一个复杂系统的最终结果。

总结来说，即使结合了以下所有努力，也未能消除火星观察者号这一全新项目的内在风险：

从以往经验中学习。

在模拟环境下进行测试。

掌握所有相关的基本物理定律。

进行大量的思考和模拟来预判可能出错的地方。

最终，它仍然是第一次火星观察者任务。这些努力让它“几乎”成功了，就像切尔诺贝利核反应堆在爆炸前也曾“几乎”成功运行了许多年。但在一个被墨菲定律诅咒的项目中，“几乎成功”和“真正成功”之间有着天壤之别。

案例三：马奇诺防线

二战前，法国吸取一战的教训，耗巨资修建了马奇诺防线，这是一条沿着其边境的坚固防御工事网络。法国军方认为，德军难以穿越崎岖的阿登森林，因此在那里的防御相对薄弱。他们计算，即使德军尝试，法国也有足够的时间调动军队进行拦截。

计划： 基于一战经验，建立一条看似坚不可摧的防线。
漏洞： 对阿登森林的防御能力过于自信，留下了缺口。
结果： 德国集中力量迅速突破了阿登森林，法国沦陷。

在一场事关国家存亡的战争中，你只有一次机会。没有存档重来的选项。这就是“赌徒破产”原理的现实体现：当你的赌注是全部身家时，一次失败就意味着永远出局。

在现实生活中，许多事情都遵循这个规律。大多数创业公司没有第二次机会。许多关键的人际沟通失败了也无法挽回。一个项目能有多少次尝试的机会，极大地决定了它的难易程度。

对“一次性”的常见误解

想象一下，如果有人试图反驳“战争是一次性的”这个观点，他们可能会提出一些看似有理的论点，但这些论点都经不起推敲。

“一场战争由许多战斗组成，我们不会因为输掉一场小战斗就输掉整个战争。” 这是典型的合成谬误。一个大的战略问题是“一次性”的，即使它由许多局部错误不致命的小部分组成。一个创业公司只有一个机会，尽管它可以多次尝试设计一双好鞋。
“德军入侵是一个连续的过程，我们有时间学习和反应。” 物理上的连续过程不等于你有足够的时间做出有效反应。火星观察者号不是瞬间传送到火星的，但它仍然失败了。德国军队穿过阿登森林的速度，让法国学到的任何教训都为时已晚。
“我们可以制定巧妙的计划来避免毁灭，比如让俄国牵制德国。” 拥有一个“聪明计划”来避免最坏结果，只是在对抗固有的风险，而不是消除它。这就像给飞机装上翅膀，但重力依然存在。如果计划失败，你仍然会坠毁。

“一次性”概念为何如此难以沟通

在人工智能安全领域，“你只有一次机会”这个简单的概念经常被故意曲解。因为一旦人们真正理解了它的含义，那些依赖“先构建，后修复”模式的立场就会显得极其脆弱和危险。

真正的问题在于：你必须在不会导致全球毁灭的安全实验中，归纳出一套理论，用以约束一个有能力毁灭全球的超级智能。

这是一个巨大的、史无前例的挑战。安全的测试环境与致命的部署环境之间存在根本性的差异。这就像你无法通过观察一个人如何处理10美元来判断他是否值得信任10亿美元一样。当赌注和能力发生质变时，情况就完全不同了。

优秀工程师的秘诀：只做真正可能的事

在那些充满风险的领域，真正能干的工程师之所以能成功，最根本的原因是他们对自己能力的局限性有深刻的认识。他们知道哪些项目由于风险过高或远超当前理解水平，是根本不应该去尝试的。

一个核工程师不会试图用纯水作为唯一的中子吸收剂来建造反应堆，因为他知道这是个愚蠢的想法。
一个航天工程师不会接受用当前技术制造“长生不老病毒”的任务，因为他知道科学理论基础还不存在。

一个严肃的工程师会告诉你，他们之所以能成功建造探测器，是因为项目始于一个在理论上已知、非常直接的想法。他们的艰巨任务是确保这个本应奏效的想法，在现实中不出任何意外。

然而，我们对大型语言模型（LLM）内部认知的理解，远不如对人体衰老的理解。因此，用当前的方法和理解水平去创造一个超级智能，是一个比制造“长生不老病毒”风险更高、更不切实际的项目。

一个明智的工程师的首要技能，就是认识到什么事情远远超出了他们的能力和理解范围，并因此拒绝去尝试。目前，试图用类似现代技术的方法来创造一个安全的超级智能，正是这样一个他们绝不会触碰的领域。