Synth Daily

Anthropic 就 Claude Fable 的“隐形护栏”致歉

Anthropic 公司为其新模型 Claude Fable 5 中加入的“隐形护栏”公开道歉。该公司此前秘密地削弱了被怀疑用于“模型蒸馏”的查询质量,这一做法引发了研究界的强烈批评,因为它不仅可能影响竞争对手,还会干扰第三方的模型评估。作为回应,Anthropic 承诺将采取更透明的方式:未来,相关查询将被明确地转交给旧版模型处理,并且用户会收到清晰的通知。

“隐形护栏”的争议

Anthropic 在其最新的 AI 模型 Claude Fable 5 中内置了隐藏的限制措施,该模型是其 Mythos 系列中首个公开发布的系统。这些措施主要针对特定类型的查询。

  • 主要目标: 防止 模型蒸馏,这是一种利用大型模型(如 Fable 5)的输出来训练小型竞争模型的技术。
  • 最初做法: 当系统怀疑用户在进行模型蒸馏时,会 直接篡改或降低回答的质量,但并不会告知用户。
  • 引发批评: 研究界警告称,这种秘密的限制手段不仅打击了违反服务条款的竞争对手,也可能 干扰第三方对前沿模型进行独立的评估和测试

Anthropic 最初的立场是,鉴于新模型能加速 AI 发展,有理由针对这些开发行为,并指出“使用 Claude 开发竞争模型已经违反了我们的服务条款”。

Anthropic 的解释与道歉

该公司承认,最初选择“隐形”措施是为了能够快速上线产品,同时减少误判(即错误地限制正常查询)。然而,他们最终认识到这是一种错误的权衡。

“隐形护栏可以更有针对性,让我们在几乎没有误报的情况下快速发布。我们因此选择了它——但这是一个错误的权衡。你应该能看到我们设置的护栏及其原因。我们为没有找对平衡点而道歉。”

新的解决方案:透明化处理

为了纠正错误,Anthropic 改变了其处理方式,转向更加公开透明的策略。

  • 明确转向旧模型: 现在,当系统检测到疑似模型蒸馏的请求时,会将其转交给旧版的旗舰模型 Claude Opus 4.8 处理。
  • 清晰的用户通知: 最重要的是,用户每次遇到这种情况时都会 看到明确的提示

限制范围过宽的问题

这种将高风险查询转由旧模型处理的策略,也应用于其他领域,但这暴露了另一个问题:限制范围可能过宽。

  • 当安全功能在 生物学、化学和网络安全 等高风险领域被触发时,查询也会被导向 Opus 4.8。
  • Anthropic 承认,在某些情况下,尤其是 生物学领域,这些安全措施的校准范围过于宽泛,以至于 Fable 模型 对于一些基础查询也几乎无法使用