在高风险、高复杂性的项目中,例如太空探索、国家战争乃至人工智能(AI)对齐,失败往往是不可挽回的。这些项目具有“一次性”的特征,即你只有一次尝试的机会,一旦关键环节出错,整个项目就会彻底失败,没有重来的可能。历史案例表明,即使我们从过去的经验中学习、进行充分的地面测试、并掌握了相关的物理规律,也无法完全避免灾难。因此,在面对像通用人工智能(AGI)对齐这样更未知、风险更致命的工程挑战时,我们必须承认其固有的不可逆转性和高脆弱性,而不是盲目相信可以通过少量测试或巧妙的补丁来化解风险。
案例一:维京1号着陆器
维京1号探测器在火星上运行了六年,电池开始老化。工程师们曾预见性地设计了一套方案:通过从地球发送无线电信号来更新探测器的软件,以应对这类突发问题。
- 计划: 1982年11月,地面中心向维京1号发送了一个软件更新,旨在优化其电池充电管理。
- 事故: 这个更新意外地覆盖了控制天线指向的软件。
- 结果: 天线不再对准地球,探测器无法再接收任何新的指令或补丁。用于纠正错误的机制本身被错误摧毁了。 与维京1号的所有联系永久中断。
这揭示了一个深刻的问题:为一个本质上遥远且无法物理接触的项目设计一个巧妙的“补丁系统”,并不能改变其根本的脆弱性。这就像给飞机装上翅膀,但并不能消除重力。一旦翅膀失灵,飞机仍然会坠落。
试图用软件更新来弥补太空探测器的“一次性”发射缺陷,并没有真正改变它无法被物理修复的本质。任何破坏纠错机制本身的问题,都会让你立刻回到最初的困境。真正的航天工程师深知这一点,所以他们以极度的审慎和偏执来进行准备,才偶尔能获得成功。
案例二:火星观察者号
火星观察者号在历时11个月的太空飞行后,于进入火星轨道前三天失联。事后分析认为,最可能的原因是在零重力环境下,燃料和氧化剂蒸汽泄漏并积聚,在发动机重启时引发了爆炸。
这是一个典型的“第一次做某件事”时可能发生的问题。每个新探测器都是为新任务定制的,这意味着每次都有新的、意想不到的出错方式。
为什么之前的经验和测试没能阻止这次失败?
- 经验的局限性: 尽管人类从以前的探测器中学到了东西,但那些探测器与火星观察者号并非完全相同。任务的根本新颖性没有被消除。
- 测试的局限性: 即使在真空室中进行了测试,也无法忠实地模拟出燃料蒸汽在零重力下泄漏并积聚11个月的确切条件。测试环境与部署环境永远存在差异。
- 科学的局限性: 尽管我们掌握了化学和物理学的基本定律,但这并不足以精确预测和控制一个复杂系统的最终结果。
总结来说,即使结合了以下所有努力,也未能消除火星观察者号这一全新项目的内在风险:
- 从以往经验中学习。
- 在模拟环境下进行测试。
- 掌握所有相关的基本物理定律。
- 进行大量的思考和模拟来预判可能出错的地方。
最终,它仍然是第一次火星观察者任务。这些努力让它“几乎”成功了,就像切尔诺贝利核反应堆在爆炸前也曾“几乎”成功运行了许多年。但在一个被墨菲定律诅咒的项目中,“几乎成功”和“真正成功”之间有着天壤之别。
案例三:马奇诺防线
二战前,法国吸取一战的教训,耗巨资修建了马奇诺防线,这是一条沿着其边境的坚固防御工事网络。法国军方认为,德军难以穿越崎岖的阿登森林,因此在那里的防御相对薄弱。他们计算,即使德军尝试,法国也有足够的时间调动军队进行拦截。
- 计划: 基于一战经验,建立一条看似坚不可摧的防线。
- 漏洞: 对阿登森林的防御能力过于自信,留下了缺口。
- 结果: 德国集中力量迅速突破了阿登森林,法国沦陷。
在一场事关国家存亡的战争中,你只有一次机会。没有存档重来的选项。这就是“赌徒破产”原理的现实体现:当你的赌注是全部身家时,一次失败就意味着永远出局。
在现实生活中,许多事情都遵循这个规律。大多数创业公司没有第二次机会。许多关键的人际沟通失败了也无法挽回。一个项目能有多少次尝试的机会,极大地决定了它的难易程度。
对“一次性”的常见误解
想象一下,如果有人试图反驳“战争是一次性的”这个观点,他们可能会提出一些看似有理的论点,但这些论点都经不起推敲。
“一场战争由许多战斗组成,我们不会因为输掉一场小战斗就输掉整个战争。” 这是典型的合成谬误。一个大的战略问题是“一次性”的,即使它由许多局部错误不致命的小部分组成。一个创业公司只有一个机会,尽管它可以多次尝试设计一双好鞋。
“德军入侵是一个连续的过程,我们有时间学习和反应。” 物理上的连续过程不等于你有足够的时间做出有效反应。火星观察者号不是瞬间传送到火星的,但它仍然失败了。德国军队穿过阿登森林的速度,让法国学到的任何教训都为时已晚。
“我们可以制定巧妙的计划来避免毁灭,比如让俄国牵制德国。” 拥有一个“聪明计划”来避免最坏结果,只是在对抗固有的风险,而不是消除它。这就像给飞机装上翅膀,但重力依然存在。如果计划失败,你仍然会坠毁。
“一次性”概念为何如此难以沟通
在人工智能安全领域,“你只有一次机会”这个简单的概念经常被故意曲解。因为一旦人们真正理解了它的含义,那些依赖“先构建,后修复”模式的立场就会显得极其脆弱和危险。
真正的问题在于:你必须在不会导致全球毁灭的安全实验中,归纳出一套理论,用以约束一个有能力毁灭全球的超级智能。
这是一个巨大的、史无前例的挑战。安全的测试环境与致命的部署环境之间存在根本性的差异。这就像你无法通过观察一个人如何处理10美元来判断他是否值得信任10亿美元一样。当赌注和能力发生质变时,情况就完全不同了。
优秀工程师的秘诀:只做真正可能的事
在那些充满风险的领域,真正能干的工程师之所以能成功,最根本的原因是他们对自己能力的局限性有深刻的认识。他们知道哪些项目由于风险过高或远超当前理解水平,是根本不应该去尝试的。
- 一个核工程师不会试图用纯水作为唯一的中子吸收剂来建造反应堆,因为他知道这是个愚蠢的想法。
- 一个航天工程师不会接受用当前技术制造“长生不老病毒”的任务,因为他知道科学理论基础还不存在。
一个严肃的工程师会告诉你,他们之所以能成功建造探测器,是因为项目始于一个在理论上已知、非常直接的想法。他们的艰巨任务是确保这个本应奏效的想法,在现实中不出任何意外。
然而,我们对大型语言模型(LLM)内部认知的理解,远不如对人体衰老的理解。因此,用当前的方法和理解水平去创造一个超级智能,是一个比制造“长生不老病毒”风险更高、更不切实际的项目。
一个明智的工程师的首要技能,就是认识到什么事情远远超出了他们的能力和理解范围,并因此拒绝去尝试。目前,试图用类似现代技术的方法来创造一个安全的超级智能,正是这样一个他们绝不会触碰的领域。