Anthropic 就 Claude Fable 的“隐形护栏”致歉

Anthropic 公司为其新模型 Claude Fable 5 中加入的“隐形护栏”公开道歉。该公司此前秘密地削弱了被怀疑用于“模型蒸馏”的查询质量，这一做法引发了研究界的强烈批评，因为它不仅可能影响竞争对手，还会干扰第三方的模型评估。作为回应，Anthropic 承诺将采取更透明的方式：未来，相关查询将被明确地转交给旧版模型处理，并且用户会收到清晰的通知。

“隐形护栏”的争议

Anthropic 在其最新的 AI 模型 Claude Fable 5 中内置了隐藏的限制措施，该模型是其 Mythos 系列中首个公开发布的系统。这些措施主要针对特定类型的查询。

主要目标： 防止 模型蒸馏，这是一种利用大型模型（如 Fable 5）的输出来训练小型竞争模型的技术。
最初做法： 当系统怀疑用户在进行模型蒸馏时，会 直接篡改或降低回答的质量，但并不会告知用户。
引发批评： 研究界警告称，这种秘密的限制手段不仅打击了违反服务条款的竞争对手，也可能 干扰第三方对前沿模型进行独立的评估和测试。

Anthropic 最初的立场是，鉴于新模型能加速 AI 发展，有理由针对这些开发行为，并指出“使用 Claude 开发竞争模型已经违反了我们的服务条款”。

Anthropic 的解释与道歉

该公司承认，最初选择“隐形”措施是为了能够快速上线产品，同时减少误判（即错误地限制正常查询）。然而，他们最终认识到这是一种错误的权衡。

“隐形护栏可以更有针对性，让我们在几乎没有误报的情况下快速发布。我们因此选择了它——但这是一个错误的权衡。你应该能看到我们设置的护栏及其原因。我们为没有找对平衡点而道歉。”

新的解决方案：透明化处理

为了纠正错误，Anthropic 改变了其处理方式，转向更加公开透明的策略。

明确转向旧模型： 现在，当系统检测到疑似模型蒸馏的请求时，会将其转交给旧版的旗舰模型 Claude Opus 4.8 处理。
清晰的用户通知： 最重要的是，用户每次遇到这种情况时都会 看到明确的提示。

限制范围过宽的问题

这种将高风险查询转由旧模型处理的策略，也应用于其他领域，但这暴露了另一个问题：限制范围可能过宽。

当安全功能在 生物学、化学和网络安全 等高风险领域被触发时，查询也会被导向 Opus 4.8。
Anthropic 承认，在某些情况下，尤其是 生物学领域，这些安全措施的校准范围过于宽泛，以至于 Fable 模型 对于一些基础查询也几乎无法使用。