Anthropic 的安全警告可能适得其反——政府已经叫停了其最强大的 AI

出于国家安全考虑，美国政府已下令 Anthropic 关停其最强大的两款 AI 模型，即 Claude Fable 5 和 Claude Mythos 5。Anthropic 公司虽已遵从，但公开表示强烈反对，认为政府的决策基于一个狭窄且非普遍的“越狱”漏洞，这种能力在其他公开模型中也已存在。此事件凸显了 AI 安全监管、技术出口管制与商业化部署之间的紧张关系，并讽刺地反映出 Anthropic 自身的“安全第一”策略可能引火烧身。

政府的紧急指令

美国政府要求 Anthropic 立即在全球范围内禁用其两款最强 AI 模型。

指令对象: Claude Fable 5 和 Claude Mythos 5。
官方理由: 国家安全与出口管制。
影响范围: 全球所有用户，而不仅仅是名义上的外国公民。
公司回应: Anthropic 虽已执行，但明确表示不认同政府的决定。

两款模型的特殊之处

这两款模型之所以引发关注，是因为它们各自具备强大的能力和特殊的发布策略。

Claude Mythos 5: Anthropic 最强的 AI 模型，因其在发现软件安全漏洞方面的卓越能力而被严格限制。该公司通过一个名为“玻璃翼计划”（Project Glasswing）的受控项目，仅与约 50 个经过审查的组织（包括亚马逊、苹果、谷歌等）共享，用于防御性网络安全工作。
Claude Fable 5: 作为 Mythos 的商业化版本，它在设计上增加了护栏，以阻止其在网络安全和生物等高风险领域做出响应，从而被认为可以安全地向公众发布。根据基准测试，它发布后立即成为公众可用的最强 AI 模型。

争议焦点：“越狱”漏洞

政府行动的根本原因似乎并非出口管制，而是一个所谓的“越狱”漏洞。

Anthropic 的理解是，政府的担忧源于一个声称存在的 Fable 5 越狱漏洞。该漏洞据称能通过提示词让模型读取特定代码库并识别软件缺陷。

Anthropic 对此提出了几点反驳：

证据不足: 政府仅提供了关于一个 “潜在的、狭窄的、非普遍的越狱” 的口头证据。
能力普遍存在: 这种识别代码漏洞的能力，在其他公开模型（如 OpenAI 的 GPT-5.5）中 已经广泛存在。
行业常规操作: 网络安全专家通常会利用这种能力进行防御性工作。
多层防护: Anthropic 强调其拥有独立于模型本身的分类器系统，即使模型被说服绕过初步拒绝，底层的防护措施依然能阻止最危险的输出。

更广泛的影响与反思

Anthropic 担心此举将为整个行业树立一个危险的先例。

“如果这个标准被应用于整个行业，我们相信它基本上会停止所有前沿模型提供商的所有新模型部署。”

这起事件充满了讽刺意味。Anthropic 一直以 安全意识强 作为其品牌形象，并宣传 Mythos 模型“因过于危险而无法公开发布”。然而，正是这种谨慎姿态，似乎吸引了政府的审查，并可能对其商业前景（包括预期的 IPO）造成最直接的冲击。