Synth Daily

Anthropic 放弃旗舰安全承诺

人工智能公司 Anthropic 正在调整其核心安全政策,放弃了先前承诺的“在确保安全措施到位前绝不训练更高级模型”的规定。新的政策转向强调提高透明度,例如公开发布安全风险评估报告。同时,公司承诺在人工智能竞赛中保持或超越竞争对手的安全标准,并仅在认为风险极其显著时才会“延迟”开发。这一转变反映出,在技术飞速发展和全球监管缺位的背景下,Anthropic 正试图在市场竞争压力与安全责任之间寻找新的平衡点,但专家认为,这也表明现有的安全评估手段已难以跟上技术进步的步伐。

核心安全承诺的转变

Anthropic 此前最引人注目的安全承诺是其《负责任扩展政策》(RSP)。该政策的核心支柱是:除非能提前保证安全措施足够充分,否则公司绝不会训练新的人工智能系统。这一承诺曾被用来证明 Anthropic 将抵制市场激励,不会草率地开发潜在的危险技术。

然而,公司现在决定彻底修改这一政策,废除了上述核心承诺。

“我们觉得,如果我们停止训练人工智能模型,实际上对任何人都没有帮助,” Anthropic 的首席科学家 Jared Kaplan 表示。“随着人工智能的飞速发展,我们认为,如果竞争对手正在高歌猛进,我们做出单方面的(暂停)承诺……是没有意义的。”

新政策框架

新版本的政策虽然放弃了硬性暂停承诺,但提出了一系列新的举措,使 Anthropic 的安全策略从“自我约束”转向“适应性竞争”。

  • 提高透明度: 承诺更公开地披露其模型的安全测试结果和潜在风险。
  • 对标竞争对手: 承诺匹配或超越竞争对手的安全投入和标准。
  • 有条件的延迟: 承诺仅在两个条件同时满足时才会“延迟”开发:
    1. 公司领导层认为 Anthropic 在人工智能竞赛中处于领先地位。
    2. 他们认为灾难性风险是显著的

总体而言,这一变化使得 Anthropic 不再受到其原有安全政策的严格限制。

政策转变背后的原因

Anthropic 将这一调整描述为对新兴政治和科学现实的务实回应,而非屈服于市场压力。

  • 激烈的竞争环境: Anthropic 的 Claude 模型取得了巨大的商业成功,人工智能领域的竞争(无论是公司间还是国家间)只增不减。如果负责任的开发者因自我限制而落后,那么安全保障最弱的开发者反而会设定行业节奏。
  • 监管未能落地: 公司曾希望其政策能成为国家法规甚至国际条约的蓝图,但这些监管从未实现。相反,一些政府采取了“放任自流”的态度。
  • 科学评估的复杂性: 事实证明,评估人工智能的风险比预想的要复杂得多。例如,尽管无法排除模型被用于生物恐怖袭击的可能性,但也缺乏强有力的科学证据来证明这种危险确实存在。过去设想的明确的“红线”,在现实中变成了一个模糊的渐变区域。

新的安全机制与外部担忧

为了在放弃硬性承诺的同时维持安全激励,Anthropic 推出了两项新机制:

  1. 《前沿安全路线图》: 定期发布文件,详细列出公司希望建立的未来安全措施目标。
  2. 《风险报告》: 每三到六个月发布一次,评估模型的最新能力、潜在威胁和风险缓解措施的有效性。

尽管 Anthropic 强调新政策的透明度和务实性,但外部专家表达了担忧。

一位专家指出,这一变化表明 Anthropic 认为其安全计划需要进入“分诊模式”,因为“评估和缓解风险的方法跟不上能力发展的步伐……这进一步证明,社会还没有为人工智能带来的潜在灾难性风险做好准备。”

专家还担心,放弃明确的暂停门槛可能会导致一种“温水煮青蛙”效应,即危险在没有单一警报时刻的情况下缓慢累积,最终失控。