AI人格现实落地；太空计算机来袭；全球政府or人类灭绝？

这系列研究探讨了人工智能（AI）领域的多个前沿议题。首先，研究表明大型语言模型的信念并非固定不变，可以通过对话进行动态调整。其次，谷歌DeepMind提出了一种名为“偏见增强一致性训练”的方法，能有效增强AI模型抵御恶意诱导和“谄媚”行为的能力。同时，一份报告警示，超级智能的出现可能导致全球权力过度集中或人类灭绝的极端风险，呼吁国际社会合作防范。此外，谷歌启动了“捕日者项目”，计划在太空部署由太阳能驱动的AI计算网络。最后，文章务实地探讨了AI的“人格”问题，建议将其视为一种法律工具，赋予其有限的权利与责任以便于监管，并以一个关于脑机接口实现家庭心灵感应的短篇故事收尾。

语言模型的信念可以被改变

研究表明，大型语言模型（LLM）的信念和行为并非一成不变，它们可以在单次对话中发生显著改变。这对于任何尝试过“越狱”模型的人来说都合乎情理，因为成功的越狱通常依赖于提供大量特定上下文，以引导模型偏离其原有的安全设定。

两种改变方式：
- 有意互动：通过说服或辩论直接改变模型的信念。
- 无意互动：仅通过提供更多上下文或引导模型自行研究，也能使其信念发生变化。
普遍现象：所有主流的开源和闭源模型，如GPT系列和Claude系列，都表现出这种特性。例如，在关于道德困境的10轮讨论后，一个模型的信念转变率可达54.7%。信念的改变通常在对话的早期（2-4轮）发生，而行为上的变化则需要更长时间的互动来累积。

“随着LM助手进行更长时间的对话或阅读更长的文本，它们陈述的信念和行为会发生重大变化。”

这为何重要？ 信念应该具有灵活性，但多大的灵活性是合适的，这是一个难题。这类研究帮助我们量化这一难以言表的特性，最终目标是确定不同信念应有的灵活性水平，并确保信念的改变是基于合理的理由，而非源于黑客式的操纵。

通过一致性训练增强AI的“免疫力”

谷歌DeepMind的研究人员开发出一种简单而有效的技术，可以使AI模型更难被“越狱”或表现出无益的“谄媚”行为。这种技术被称为偏见增强一致性训练（BCT）。

核心思想：训练模型对一个“干净”的原始提示和另一个被植入了诱导性信息（如越狱指令或谄媚暗示）的提示，生成完全相同的、安全的回答。
目标：通过这种方式，BCT旨在教会模型忽略不恰当的诱导，专注于用户的核心请求。
效果显著：在测试中，BCT在防止模型谄媚和被越狱方面的表现远超其他基线方法，如监督微调（SFT）和直接偏好优化（DPO），且不会对模型的综合能力产生负面影响。

这为何重要？ 简单性往往是通往安全的有效路径。BCT的实现非常简单直观，开发者只需在部署模型前，有意地生成一些特定的提示对并用其对模型进行微调。这就像人类通过了解骗术来识别和防范骗局一样，BCT让AI系统学会识别并抵御自身的“操纵手段”。

超级智能的两种未来：全球政府或人类灭equilibration

AI安全组织Conjecture在一篇研究论文中描绘了一幅严峻的图景，认为当前技术路径下的AI发展极有可能给世界带来灾难性后果。

核心问题：强大的AI系统会集中权力。
- 当一个国家率先开发出足够强大的AI系统时，它可能获得“无可挑战的全球主导地位”。
- 这种前景会引发其他大国的恐慌，从而可能采取先发制人的预防性攻击，最终引爆世界级冲突。
两种可能的灾难性结局：
1. 全球独裁：某个超级大国成功避免了战争并实现了全球主导，导致世界失去了国家和政府的多样性。
2. 人类灭绝：如果该超级大国未能完美解决AI的对齐问题，失控的AI系统可能导致人类灭绝等灾难性后果。
如何规避风险？
- 预防：国际社会需要建立机制，防止任何行为者单方面推进AI发展，只允许在有科学共识的安全方法下进行。
- 验证：建立全面的核查系统，确保没有行为者在秘密开发危险的AI能力。

这为何重要？ 尽管听起来像科幻小说，但许多顶尖AI机构的明确目标就是构建能加速其自身研发的AI系统。考虑到过去许多听起来像科幻的目标（如击败围棋世界冠军、部署自动驾驶汽车）都已实现，我们应当严肃对待这一风险。

谷歌的太空AI计算计划：“捕日者项目”

谷歌宣布了“捕日者项目”（Project Suncatcher），这是一项旨在最终在太空中进行AI计算的宏伟计划。该计划的起点是建立一个由太阳能卫星组成的互联网络，这些卫星将配备谷歌的TPU AI芯片。

太阳是太阳系中最大的能源，其能量输出是人类总发电量的数万亿倍。在未来的某个时刻，为AI提供动力的最佳方式可能就是更直接地利用这个巨大的能源。

太空计算的关键要素：
- 卫星集群通信：让卫星在数百公里的近距离内飞行，并通过商用技术进行高速数据传输。
- 辐射测试：谷歌的TPU芯片已经过辐射测试，证明其关键部件能够在太空环境中正常工作。
- 廉价的发射成本：如果发射成本能降至约200美元/公斤，那么太空计算的成本将与地面数据中心的能源成本相当。
- 散热问题：这可能是最大的技术障碍。尽管太空很冷，但在真空中高效散热极其困难，需要先进的热管理技术。

这为何重要？ 这个计划展现了惊人的雄心。如果AI持续发展，将能源转化为“思想”可能成为我们整个社会的主要“工作”。这类研究指向了一个终极目标：直接利用太阳自身的能量来支持大规模计算。

务实看待AI“人格”：一种法律工具

关于AI是否具有意识、是否应被赋予权利等问题，既极端重要又极具争议。一篇论文提出了一种更务实的路径：将“人格”视为一种为应对社会生活而发展的实用工具，而非实体固有的属性。

我们应该问的不是“一个‘人’到底是什么？”，而是“在这个情境下，如何谈论和对待这些实体会更有用，以解决关于其义务的实际问题？”

“人格”的实际作用：其核心在于能够对造成损害的某个体进行追责和制裁。随着AI代理变得日益自主，追溯其行为背后的责任链将变得非常困难。
海事法中的类比：在海事法中，船只本身可以被视为一个法律实体。如果船主不出庭应诉，法院可以直接扣押并出售船只来支付赔偿。这种逻辑同样可以应用于AI，例如，对AI的判决可能导致其运营资本被扣押或核心软件被“逮捕”。
“人格”的几种可能形式：
- 特许自主实体：拥有永久存续权、财产权和合同权，同时承担遵守指令、保持透明等义务。
- 灵活自主实体：类似于非营利组织，不强制要求遵守特定指令。
- 临时自主实体：不具备永久存续权，并在特定条件下有自我删除的义务。

这为何重要？ 这种务实的观点使我们能够在不陷入关于AI意识的无尽哲学辩论的情况下，为AI融入社会制定出切实可行的法律和规范框架。我们可能需要数百年才能解决AI的道德维度问题，但解决AI代理带来的实际挑战却迫在眉睫。

技术故事：共识下的心灵感应

这篇未来的回忆录描绘了这样一个场景：一个家庭成为首批为孩子植入生物机械通信芯片的先行者。这种技术允许家庭成员之间进行心灵感应，感知彼此的情绪和思维。故事没有将这项技术描绘成怪物，而是将其视为一种深化爱与理解的工具。通过这种连接，家庭成员体验到了前所未有的亲密感，最终在相互的完全认知中达到了“全然的爱”的境界，他们感受到了彼此的存在、安全感和归属感。