Synth Daily

Anthropic发布Fable 5:一款带有“安全锁”的强大AI模型

人工智能公司 Anthropic 发布了其最新的大模型 Claude Fable 5。这可以看作是该公司此前因过于强大而未公开的“神话级”模型 Mythos 的一个公开版本,但带有一系列严格的安全防护措施。这些措施主要用于阻止模型处理网络安全、生物、化学等领域的敏感请求,以防被恶意利用。当检测到此类问题时,系统会自动将任务转交给一个能力较弱的模型 Opus 4.8 来处理。尽管有这些限制,Anthropic 称 Fable 5 在软件工程、科学研究等方面的能力已超越其所有早期模型。与此同时,一个限制更少的版本 Mythos 5 也被提供给少数可信赖的网络安全专家,用于“以魔法对抗魔法”,帮助他们发现并修复系统漏洞。这种双版本发布的策略,旨在平衡技术的快速发展与潜在的社会风险。

要点

  • 1双版本发布:面向公众推出带安全限制的 Fable 5,同时向少数可信赖的安全专家提供限制更少的 Mythos 5
  • 2智能安全防护:当检测到网络安全、生物学等敏感请求时,系统会自动将任务转交给能力较弱的 Opus 4.8 模型处理,并告知用户。
  • 3顶尖性能:尽管设有防护,Anthropic 称 Fable 5 的综合能力,尤其在处理复杂和长期任务时,已超越此前所有公开模型
  • 4实际应用验证:早期用户报告称,该模型能将数月的工程工作缩短至数天。预览版在测试中已帮助组织发现了超过 10,000 个严重安全漏洞。

视角

Anthropic 公司

“Fable 5 的能力,尤其在网络安全领域,如果被滥用可能造成严重损害。我们设置安全防护的目的,不是限制模型能做什么,而是限制我们允许它做什么。”

行业观察者

“AI 行业现在就像只有油门,没有刹车。新模型的强大能力带来了‘未知的未知’风险,需要谨慎对待,确保有办法控制其行为。”

早期用户反馈

金融公司 IMC 发现 Fable 5 在交易分析评估中几乎全面胜出。Stripe 公司则表示,该模型能将数月的工程开发时间压缩到几天内完成。

安全与开放的平衡

Anthropic 此次发布的核心是试图解决一个棘手问题:如何既能让公众享受到最前沿 AI 技术的红利,又能有效防止其强大能力被恶意利用。Fable 5 的“安全防护”机制就是他们的答案。它不是削弱模型本身,而是在应用层加了一道“锁”。

“Fable 和 Mythos 的区别不在于模型能做什么,而在于我们的安全措施允许它做什么。”

这种做法承认了模型的潜在危险性,并尝试通过技术手段加以控制。该公司声称,在广泛的“越狱”测试中,这些安全措施尚未被成功绕过。

双版本发布策略

Anthropic 没有简单地选择发布或不发布,而是采取了更细致的双版本策略。面向大众的 Fable 5 像一辆性能强大但限速的家用车,确保日常使用的安全。而提供给网络安全专家的 Mythos 5 则像一辆赛道专用车,解除了限制,让专业人士可以用它来寻找和修复系统漏洞,以提升整体网络安全水平。这种分层访问的模式,可能成为未来发布高风险技术的一种新范例。

Q&A

Q: Fable 5 和 Mythos 5 有什么区别?

A: 它们是同一个核心模型。主要区别在于 Fable 5 带有安全防护,会阻止关于网络安全和生物学等敏感问题的回答;而 Mythos 5 则移除了这些限制,仅提供给受信任的安全专家使用。

Q: 如果我向 Fable 5 提出一个敏感问题会发生什么?

A: 你的请求会被自动转交给一个能力较弱的模型(Opus 4.8)来回答,系统会明确告知你发生了这次转换。模型本身不会被“越狱”去执行危险指令。

Q: 这款模型真的那么强大吗?

A: 是的。根据 Anthropic 和早期用户的说法,它的能力非常突出。在预览测试阶段,约 150 个组织使用它在自己的系统中发现了超过 10,000 个严重安全漏洞,证明了其强大的分析和发现能力。

你知道吗?