Anthropic 负责任的规模化政策 v3：信任的关键

Anthropic 更新了其《负责任扩展政策》（RSP v3.0），放弃了之前关于在安全措施不足时暂停 AI 开发的硬性承诺。该公司以竞争压力为由，认为单方面暂停并不能真正提升安全。此举引发了广泛批评，许多人认为这是一个重大的信任破坏，削弱了行业自律的可信度。支持者认为，这是从不切实际的承诺转向务实目标的合理调整。但批评者指出，这实际上是为危险的 AI 竞赛开了绿灯，降低了安全标准，并使未来的协调与信任建设变得更加困难。

放弃核心安全承诺

Anthropic 新政策的核心变化是，它不再承诺在没有充分安全保障的情况下停止发布高风险模型。简而言之，如果竞争对手在危险的道路上前进，Anthropic 现在也可能跟进。

过去的承诺： 如果无法保证安全，就暂停扩展或延迟部署新模型。这被视为其安全政策的基石。
现在的立场： 竞争压力使得遵守旧承诺变得不现实。如果竞争对手“先行一步”，单方面暂停对世界安全并无益处。
本质转变： 从硬性承诺和明确的暂停条件，转向了依赖内部判断、“合理”论证以及对风险与收益的权衡。

我很高兴 Anthropic 承认了这一点。如果你无法信守承诺，那么现在承认事实是第二好的选择。

尽管承认事实值得赞赏，但这并不意味着可以免于承担后果。破坏承诺的行为本身就已经损害了信任，无论理由多么充分。

信任的代价

这次政策调整最严重的后果是破坏了信任，尤其是对于那些曾相信 Anthropic 会坚守安全底线的人。

承诺的价值被削弱： 许多观察者认为，AI 实验室的安全承诺已变得一文不值。如果连 Anthropic 都无法坚持，那么谁又能做到呢？
未来协调更难： 这种行为使得实验室之间、以及实验室与政府之间的信任与协调变得更加困难。
开创了不良先例： 这为其他希望不惜一切代价前进的公司壮了胆，并削弱了他人为安全而付出成本的意愿。

如果你的承诺是以他人的行动为条件的，你应该事先说明。Anthropic 之前的政策虽然提到了例外情况，但措辞更像是“紧急情况下才打破”，而不是“只要别人不跟进，我们就不遵守”。

很多人曾认为，RSP 这类政策的核心价值在于它是一个“如果…就…”的触发器：如果无法满足安全条件，就必须暂停。现在，这个机制被证明是不可靠的。

“我们从未真正承诺过”的模式

批评者指出，这已经不是 Anthropic 第一次收回其暗示或明确的立场。这形成了一种令人担忧的模式。

“不推动能力前沿”的说法： Anthropic 最初给外界留下了不会主动追求最强 AI 模型的印象，并因此获得了安全社区的支持。后来，随着 Claude 模型变得越来越强大，这一立场被放弃。
“负责任扩展政策”的承诺： 员工曾多次向外界强调 RSP 是具有约束力的“铁索”，会迫使公司在必要时暂停。现在，这一承诺也被撤回。

Ruben Bloom (Ruby): 我不喜欢这种模式。2022年，我被告知“Anthropic 承诺不推动能力前沿”，所以我可以少担心一点。后来这个说法被放弃了，他们的安全故事变成了 RSP。现在，RSP 也崩溃了。

许多人感觉自己被误导了。Anthropic 从这些“承诺”中获得了声誉和人才，但在兑现承诺的成本出现时却选择了退缩。

Eliezer Yudkowsky: 如果我曾经对 Anthropic 的“负责任扩展政策”有过一丝一毫的信任，我现在可能会感到非常被背叛！事实是，我只请求你们更新自己的认知，不要总是对“哈，Eliezer 认为它是空话，结果他说对了”这种事感到惊讶。

辩护：从硬性承诺到理想目标

政策的支持者，如 Holden Karnofsky，认为这种转变是必要且明智的。

硬性承诺不切实际： 他们认为，在信息不足的情况下制定僵化的规则是错误的。环境变化太快，当初的承诺现在可能已经不合理。
理想目标更优越： 设定理想目标（Aspirational goals）是一种更诚实、更灵活的方式。实验室可以努力实现这些目标，但不必受其束缚而做出不明智的商业决策。
竞争现实： Holden Karnofsky 基本上承认，除非情况极端到“明显会导致我们所有人死亡”，否则实验室不会停止发布模型。承认这一点比假装有红线要好。

Drake Thomas (Anthropic): 我为最初 v1.0 RSP 的精神感到某种哀悼……但我认为最初的方法最终是一种很糟糕的方式……它会导致资源错配和不良后果，并且在 2026 年的环境中无法实现多少风险降低。

尽管这种坦诚受到一些人的欢迎，但它也证实了最悲观的预测：在竞争压力下，安全承诺是脆弱的。

未来的警示

这次事件为如何看待 AI 公司的安全承诺提供了重要教训。

不要相信“承诺”： 除非有强制执行机制，否则公司的“承诺”更应被视为“意图声明”。它们随时可能因为商业利益或竞争压力而改变。
现实不由相对标准决定： “我们会和最不负责的竞争对手一样负责”这种标准毫无意义。AI 的风险是绝对的，而不是相对的。
言语需要与行动匹配： 如果一家公司声称某些激励措施正在迫使它做出危险行为，它应该大声疾呼，呼吁改变这些激励措施，而不是默默接受并改变自己的安全标准。

Oliver Habryka: 别闹了，在刚刚发生那么糟糕的事情之后，别马上又开始用“承诺”这个词了。此时此刻，正确的说法似乎是“正如 RSP 中所表达的，我们打算在未来做某事”。

最终，这次政策调整表明，依赖公司的自愿承诺来确保 AI 安全是一场已经失败的实验。信任一旦被打破，重建将极其困难。