Anthropic 放弃旗舰安全承诺

人工智能公司 Anthropic 正在调整其核心安全政策，放弃了先前承诺的“在确保安全措施到位前绝不训练更高级模型”的规定。新的政策转向强调提高透明度，例如公开发布安全风险评估报告。同时，公司承诺在人工智能竞赛中保持或超越竞争对手的安全标准，并仅在认为风险极其显著时才会“延迟”开发。这一转变反映出，在技术飞速发展和全球监管缺位的背景下，Anthropic 正试图在市场竞争压力与安全责任之间寻找新的平衡点，但专家认为，这也表明现有的安全评估手段已难以跟上技术进步的步伐。

核心安全承诺的转变

Anthropic 此前最引人注目的安全承诺是其《负责任扩展政策》（RSP）。该政策的核心支柱是：除非能提前保证安全措施足够充分，否则公司绝不会训练新的人工智能系统。这一承诺曾被用来证明 Anthropic 将抵制市场激励，不会草率地开发潜在的危险技术。

然而，公司现在决定彻底修改这一政策，废除了上述核心承诺。

“我们觉得，如果我们停止训练人工智能模型，实际上对任何人都没有帮助，” Anthropic 的首席科学家 Jared Kaplan 表示。“随着人工智能的飞速发展，我们认为，如果竞争对手正在高歌猛进，我们做出单方面的（暂停）承诺……是没有意义的。”

新政策框架

新版本的政策虽然放弃了硬性暂停承诺，但提出了一系列新的举措，使 Anthropic 的安全策略从“自我约束”转向“适应性竞争”。

提高透明度： 承诺更公开地披露其模型的安全测试结果和潜在风险。
对标竞争对手： 承诺匹配或超越竞争对手的安全投入和标准。
有条件的延迟： 承诺仅在两个条件同时满足时才会“延迟”开发：
1. 公司领导层认为 Anthropic 在人工智能竞赛中处于领先地位。
2. 他们认为灾难性风险是显著的。

总体而言，这一变化使得 Anthropic 不再受到其原有安全政策的严格限制。

政策转变背后的原因

Anthropic 将这一调整描述为对新兴政治和科学现实的务实回应，而非屈服于市场压力。

激烈的竞争环境： Anthropic 的 Claude 模型取得了巨大的商业成功，人工智能领域的竞争（无论是公司间还是国家间）只增不减。如果负责任的开发者因自我限制而落后，那么安全保障最弱的开发者反而会设定行业节奏。
监管未能落地： 公司曾希望其政策能成为国家法规甚至国际条约的蓝图，但这些监管从未实现。相反，一些政府采取了“放任自流”的态度。
科学评估的复杂性： 事实证明，评估人工智能的风险比预想的要复杂得多。例如，尽管无法排除模型被用于生物恐怖袭击的可能性，但也缺乏强有力的科学证据来证明这种危险确实存在。过去设想的明确的“红线”，在现实中变成了一个模糊的渐变区域。

新的安全机制与外部担忧

为了在放弃硬性承诺的同时维持安全激励，Anthropic 推出了两项新机制：

《前沿安全路线图》： 定期发布文件，详细列出公司希望建立的未来安全措施目标。
《风险报告》： 每三到六个月发布一次，评估模型的最新能力、潜在威胁和风险缓解措施的有效性。

尽管 Anthropic 强调新政策的透明度和务实性，但外部专家表达了担忧。

一位专家指出，这一变化表明 Anthropic 认为其安全计划需要进入“分诊模式”，因为“评估和缓解风险的方法跟不上能力发展的步伐……这进一步证明，社会还没有为人工智能带来的潜在灾难性风险做好准备。”

专家还担心，放弃明确的暂停门槛可能会导致一种“温水煮青蛙”效应，即危险在没有单一警报时刻的情况下缓慢累积，最终失控。