Synth Daily

Anthropic 负责任的规模化政策 v3:信任的关键

Anthropic 更新了其《负责任扩展政策》(RSP v3.0),放弃了之前关于在安全措施不足时暂停 AI 开发的硬性承诺。该公司以竞争压力为由,认为单方面暂停并不能真正提升安全。此举引发了广泛批评,许多人认为这是一个重大的信任破坏,削弱了行业自律的可信度。支持者认为,这是从不切实际的承诺转向务实目标的合理调整。但批评者指出,这实际上是为危险的 AI 竞赛开了绿灯,降低了安全标准,并使未来的协调与信任建设变得更加困难。

放弃核心安全承诺

Anthropic 新政策的核心变化是,它不再承诺在没有充分安全保障的情况下停止发布高风险模型。简而言之,如果竞争对手在危险的道路上前进,Anthropic 现在也可能跟进。

  • 过去的承诺: 如果无法保证安全,就暂停扩展或延迟部署新模型。这被视为其安全政策的基石。
  • 现在的立场: 竞争压力使得遵守旧承诺变得不现实。如果竞争对手“先行一步”,单方面暂停对世界安全并无益处。
  • 本质转变:硬性承诺和明确的暂停条件,转向了依赖内部判断、“合理”论证以及对风险与收益的权衡。

我很高兴 Anthropic 承认了这一点。如果你无法信守承诺,那么现在承认事实是第二好的选择。

尽管承认事实值得赞赏,但这并不意味着可以免于承担后果。破坏承诺的行为本身就已经损害了信任,无论理由多么充分。

信任的代价

这次政策调整最严重的后果是破坏了信任,尤其是对于那些曾相信 Anthropic 会坚守安全底线的人。

  • 承诺的价值被削弱: 许多观察者认为,AI 实验室的安全承诺已变得一文不值。如果连 Anthropic 都无法坚持,那么谁又能做到呢?
  • 未来协调更难: 这种行为使得实验室之间、以及实验室与政府之间的信任与协调变得更加困难。
  • 开创了不良先例: 这为其他希望不惜一切代价前进的公司壮了胆,并削弱了他人为安全而付出成本的意愿。

如果你的承诺是以他人的行动为条件的,你应该事先说明。Anthropic 之前的政策虽然提到了例外情况,但措辞更像是“紧急情况下才打破”,而不是“只要别人不跟进,我们就不遵守”。

很多人曾认为,RSP 这类政策的核心价值在于它是一个“如果…就…”的触发器:如果无法满足安全条件,就必须暂停。现在,这个机制被证明是不可靠的。

“我们从未真正承诺过”的模式

批评者指出,这已经不是 Anthropic 第一次收回其暗示或明确的立场。这形成了一种令人担忧的模式。

  1. “不推动能力前沿”的说法: Anthropic 最初给外界留下了不会主动追求最强 AI 模型的印象,并因此获得了安全社区的支持。后来,随着 Claude 模型变得越来越强大,这一立场被放弃。
  2. “负责任扩展政策”的承诺: 员工曾多次向外界强调 RSP 是具有约束力的“铁索”,会迫使公司在必要时暂停。现在,这一承诺也被撤回。

Ruben Bloom (Ruby): 我不喜欢这种模式。2022年,我被告知“Anthropic 承诺不推动能力前沿”,所以我可以少担心一点。后来这个说法被放弃了,他们的安全故事变成了 RSP。现在,RSP 也崩溃了。

许多人感觉自己被误导了。Anthropic 从这些“承诺”中获得了声誉和人才,但在兑现承诺的成本出现时却选择了退缩。

Eliezer Yudkowsky: 如果我曾经对 Anthropic 的“负责任扩展政策”有过一丝一毫的信任,我现在可能会感到非常被背叛!事实是,我只请求你们更新自己的认知,不要总是对“哈,Eliezer 认为它是空话,结果他说对了”这种事感到惊讶。

辩护:从硬性承诺到理想目标

政策的支持者,如 Holden Karnofsky,认为这种转变是必要且明智的。

  • 硬性承诺不切实际: 他们认为,在信息不足的情况下制定僵化的规则是错误的。环境变化太快,当初的承诺现在可能已经不合理。
  • 理想目标更优越: 设定理想目标(Aspirational goals)是一种更诚实、更灵活的方式。实验室可以努力实现这些目标,但不必受其束缚而做出不明智的商业决策。
  • 竞争现实: Holden Karnofsky 基本上承认,除非情况极端到“明显会导致我们所有人死亡”,否则实验室不会停止发布模型。承认这一点比假装有红线要好。

Drake Thomas (Anthropic): 我为最初 v1.0 RSP 的精神感到某种哀悼……但我认为最初的方法最终是一种很糟糕的方式……它会导致资源错配和不良后果,并且在 2026 年的环境中无法实现多少风险降低。

尽管这种坦诚受到一些人的欢迎,但它也证实了最悲观的预测:在竞争压力下,安全承诺是脆弱的。

未来的警示

这次事件为如何看待 AI 公司的安全承诺提供了重要教训。

  • 不要相信“承诺”: 除非有强制执行机制,否则公司的“承诺”更应被视为“意图声明”。它们随时可能因为商业利益或竞争压力而改变。
  • 现实不由相对标准决定: “我们会和最不负责的竞争对手一样负责”这种标准毫无意义。AI 的风险是绝对的,而不是相对的。
  • 言语需要与行动匹配: 如果一家公司声称某些激励措施正在迫使它做出危险行为,它应该大声疾呼,呼吁改变这些激励措施,而不是默默接受并改变自己的安全标准。

Oliver Habryka: 别闹了,在刚刚发生那么糟糕的事情之后,别马上又开始用“承诺”这个词了。此时此刻,正确的说法似乎是“正如 RSP 中所表达的,我们打算在未来做某事”。

最终,这次政策调整表明,依赖公司的自愿承诺来确保 AI 安全是一场已经失败的实验。信任一旦被打破,重建将极其困难。