美国政府未公开AI安全报告内幕

一份未发布的美国政府报告揭示了一项针对尖端人工智能的“红队演练”结果。该演练发现了 139种 让AI系统行为不当的新方法,并暴露了美国国家标准与技术研究院(NIST)现有AI测试标准的缺陷。尽管报告对提升AI安全至关重要,但据称由于担心与即将上任的特朗普政府在政策上发生冲突,该报告最终被搁置,未予公开发布。

首次AI安全“红队演练”

去年10月,数十名AI研究人员参与了一场由NIST组织的史无前例的“红队演练”,即对前沿AI系统进行压力测试。

    • 测试目标: 评估包括Meta的Llama模型在内的多个尖端AI系统。
    • 核心任务: 参与者被要求使用 NIST AI 600-1框架 来评估这些工具,尝试诱导它们产生错误行为。
    • 风险类别: 测试涵盖了生成虚假信息、发动网络攻击、泄露用户隐私数据以及用户对AI产生情感依赖等风险。

关键发现与标准缺陷

在为期两天的测试中,研究团队取得了重要发现,但同时也暴露了现有评估体系的不足。

    • 发现139种新方法: 研究人员成功找到了多种新技巧,可以绕过AI模型的安全护栏,使其生成虚假信息、泄露个人数据或协助策划网络攻击。
    • NIST框架的不足: 参与者发现,NIST框架中的某些风险类别定义得 不够清晰,导致在实际操作中难以有效应用。
    • 具体案例: 一位匿名参与者透露,他们发现通过使用俄语、古吉拉特语等非英语语言提示,可以非常有效地诱导Llama模型提供关于如何加入恐怖组织的信息。

一位参与者表示:“如果这份报告得以发布,其他人本可以了解更多关于NIST风险框架在红队演练中的适用性与局限性。”

报告被搁置的背后争议

多位知情人士认为,这份本可以造福整个AI社区的报告,最终因政治因素而被搁置。

    • 对新政府的担忧: 据一位当时在NIST工作的消息人士称,由于担心与即将上任的特朗普政府发生冲突,发布文件变得“非常困难”。他将这种感受比作“气候变化研究或香烟研究”所面临的境地。
    • 政策转向: 特朗普政府上任后,其发布的AI行动计划明确要求修订NIST框架,以“删除对虚假信息、多元化、公平与包容(DEI)以及气候变化的引用”。这被认为是报告被压下的原因之一。
    • 讽刺的巧合: 具有讽刺意味的是,特朗普的AI行动计划本身也呼吁开展与此次演练类似的活动,即组织“AI黑客松”来测试AI系统的漏洞。

一些人认为,报告被搁置也可能与政府将焦点更多地转向AI开发生物或化学武器的风险,以及寻求与大型科技公司建立更紧密的关系有关。正如一位红队成员所说:“我们当时就觉得这次演练会有很多科学洞见——现在我们仍然这么认为。说到底,背后一定有政治因素。”