Synth Daily

国防部重压之下,Anthropic 妥协,安全承诺“缩水”

在面临美国国防部要求开放其AI模型访问权限的巨大压力下,Anthropic公司修改了其核心安全承诺。该公司放弃了先前“若未达到特定安全标准则停止AI模型训练”的严格政策,转而采取一种更灵活的风险管理方法。Anthropic官方将此举归因于激烈的行业竞争,但批评者认为,这可能是在其估值飙升后对伦理原则的妥协,并对新的安全框架能否有效防范风险表示担忧。

核心安全承诺的重大调整

Anthropic公司公开宣布修改其“负责任扩展政策”(Responsible Scaling Policy, RSP),实质上降低了其AI开发的安全门槛。这一变化标志着公司安全理念的根本性转变。

  • 旧政策:如果无法预先保证特定的安全准则,将停止训练新的AI模型。这是一个硬性的“熔断机制”,也是Anthropic向公众和商业伙伴宣传其安全可靠形象的核心。
  • 新政策:放弃了严格的红线,转而采用相对灵活的“风险报告”和“前沿安全路线图”作为替代。这意味着安全评估将变得更加相对,而非基于绝对的停止条件。

Anthropic公司坦言:“两年半后,我们坦诚地评估,这个理论的某些部分按我们的设想发展了,但其他部分没有。”

官方解释:竞争压力下的无奈之举?

Anthropic在公开声明中并未提及来自军方的压力,而是将政策调整归因于外部环境的变化。

公司首席科学官Jared Kaplan表示:

“我们认为,如果我们停止训练AI模型,实际上对谁都没有好处……如果竞争对手在突飞猛进,我们做出单方面的承诺是没有意义的。”

其核心论点可以总结为以下几点:

  • 激烈的AI竞赛:如果只有负责任的开发者停下脚步实施安全措施,而其他人继续前进,世界可能会因为那些保护措施最弱的开发者设定了行业节奏而变得更不安全
  • 反监管环境:在美国的政策背景下,单方面停止发展的做法不切实际。
  • 避免落后:继续前进能让负责任的开发者保有进行安全研究和推动公共利益的能力。

幕后推手:国防部的强硬要求

尽管Anthropic的公告中只字未提,但媒体报道揭示了其面临的巨大军事压力。美国国防部长据称向Anthropic发出了最后通牒。

  • 具体要求:要求该公司给予军方不受限制的访问权限
  • 潜在威胁:若不服从,可能面临法律诉讼,或援引《国防生产法》强制其履行国防合同。军方还可能将其指定为供应链风险,从而迫使其他国防承包商停止使用其AI模型Claude。

Anthropic的底线:愿意为五角大楼调整使用政策,但拒绝其模型被用于 大规模监视美国人无需人类干预即可开火的武器

军方对Claude模型的需求非常迫切,一位国防官员表示:

“我们还在和这些人谈的唯一原因,就是我们现在就需要他们。他们的问题在于,他们真的太出色了。”

批评与担忧:妥协的代价

这一政策转变引发了外界的广泛批评和深切担忧,许多人认为这背后是商业利益对伦理原则的侵蚀。

  • 利益驱动的妥协:有观点认为,这与谷歌早期移除其“不作恶”信条类似,是初创公司在估值飙升(Anthropic新一轮融资300亿美元,估值达3800亿美元)后,伦理标准变得模糊的又一例证。
  • “温水煮青蛙”效应:AI风险领域的专家担心,这种灵活的政策可能导致安全标准被逐步削弱。当安全成为一个灰色地带时,一系列看似合理的让步可能最终将公司引向其曾经谴责的危险道路。

非营利组织METR的主任Chris Painter指出,这一转变表明Anthropic认为自己需要进入“紧急 triage 模式”。

他认为,这进一步证明,风险评估和缓解方法的发展速度跟不上AI能力的发展步伐,社会对于AI可能带来的灾难性风险并未做好准备