Synth Daily

Anthropic 的安全警告可能适得其反——政府已经叫停了其最强大的 AI

出于国家安全考虑,美国政府已下令 Anthropic 关停其最强大的两款 AI 模型,即 Claude Fable 5 和 Claude Mythos 5。Anthropic 公司虽已遵从,但公开表示强烈反对,认为政府的决策基于一个狭窄且非普遍的“越狱”漏洞,这种能力在其他公开模型中也已存在。此事件凸显了 AI 安全监管、技术出口管制与商业化部署之间的紧张关系,并讽刺地反映出 Anthropic 自身的“安全第一”策略可能引火烧身。

政府的紧急指令

美国政府要求 Anthropic 立即在全球范围内禁用其两款最强 AI 模型。

  • 指令对象: Claude Fable 5Claude Mythos 5
  • 官方理由: 国家安全与出口管制。
  • 影响范围: 全球所有用户,而不仅仅是名义上的外国公民。
  • 公司回应: Anthropic 虽已执行,但明确表示不认同政府的决定。

两款模型的特殊之处

这两款模型之所以引发关注,是因为它们各自具备强大的能力和特殊的发布策略。

  • Claude Mythos 5: Anthropic 最强的 AI 模型,因其在发现软件安全漏洞方面的卓越能力而被严格限制。该公司通过一个名为“玻璃翼计划”(Project Glasswing)的受控项目,仅与约 50 个经过审查的组织(包括亚马逊、苹果、谷歌等)共享,用于防御性网络安全工作。

  • Claude Fable 5: 作为 Mythos 的商业化版本,它在设计上增加了护栏,以阻止其在网络安全和生物等高风险领域做出响应,从而被认为可以安全地向公众发布。根据基准测试,它发布后立即成为公众可用的最强 AI 模型。

争议焦点:“越狱”漏洞

政府行动的根本原因似乎并非出口管制,而是一个所谓的“越狱”漏洞。

Anthropic 的理解是,政府的担忧源于一个声称存在的 Fable 5 越狱漏洞。该漏洞据称能通过提示词让模型读取特定代码库并识别软件缺陷。

Anthropic 对此提出了几点反驳:

  • 证据不足: 政府仅提供了关于一个 “潜在的、狭窄的、非普遍的越狱” 的口头证据。
  • 能力普遍存在: 这种识别代码漏洞的能力,在其他公开模型(如 OpenAI 的 GPT-5.5)中 已经广泛存在
  • 行业常规操作: 网络安全专家通常会利用这种能力进行防御性工作。
  • 多层防护: Anthropic 强调其拥有独立于模型本身的分类器系统,即使模型被说服绕过初步拒绝,底层的防护措施依然能阻止最危险的输出。

更广泛的影响与反思

Anthropic 担心此举将为整个行业树立一个危险的先例。

“如果这个标准被应用于整个行业,我们相信它基本上会停止所有前沿模型提供商的所有新模型部署。”

这起事件充满了讽刺意味。Anthropic 一直以 安全意识强 作为其品牌形象,并宣传 Mythos 模型“因过于危险而无法公开发布”。然而,正是这种谨慎姿态,似乎吸引了政府的审查,并可能对其商业前景(包括预期的 IPO)造成最直接的冲击。