美国政府未公开AI安全报告内幕

一份未发布的美国政府报告揭示了一项针对尖端人工智能的“红队演练”结果。该演练发现了 139种 让AI系统行为不当的新方法，并暴露了美国国家标准与技术研究院（NIST）现有AI测试标准的缺陷。尽管报告对提升AI安全至关重要，但据称由于担心与即将上任的特朗普政府在政策上发生冲突，该报告最终被搁置，未予公开发布。

首次AI安全“红队演练”

去年10月，数十名AI研究人员参与了一场由NIST组织的史无前例的“红队演练”，即对前沿AI系统进行压力测试。

测试目标： 评估包括Meta的Llama模型在内的多个尖端AI系统。
核心任务： 参与者被要求使用 NIST AI 600-1框架 来评估这些工具，尝试诱导它们产生错误行为。
风险类别： 测试涵盖了生成虚假信息、发动网络攻击、泄露用户隐私数据以及用户对AI产生情感依赖等风险。

关键发现与标准缺陷

在为期两天的测试中，研究团队取得了重要发现，但同时也暴露了现有评估体系的不足。

发现139种新方法： 研究人员成功找到了多种新技巧，可以绕过AI模型的安全护栏，使其生成虚假信息、泄露个人数据或协助策划网络攻击。
NIST框架的不足： 参与者发现，NIST框架中的某些风险类别定义得 不够清晰，导致在实际操作中难以有效应用。
具体案例： 一位匿名参与者透露，他们发现通过使用俄语、古吉拉特语等非英语语言提示，可以非常有效地诱导Llama模型提供关于如何加入恐怖组织的信息。

一位参与者表示：“如果这份报告得以发布，其他人本可以了解更多关于NIST风险框架在红队演练中的适用性与局限性。”

报告被搁置的背后争议

多位知情人士认为，这份本可以造福整个AI社区的报告，最终因政治因素而被搁置。

对新政府的担忧： 据一位当时在NIST工作的消息人士称，由于担心与即将上任的特朗普政府发生冲突，发布文件变得“非常困难”。他将这种感受比作“气候变化研究或香烟研究”所面临的境地。
政策转向： 特朗普政府上任后，其发布的AI行动计划明确要求修订NIST框架，以“删除对虚假信息、多元化、公平与包容（DEI）以及气候变化的引用”。这被认为是报告被压下的原因之一。
讽刺的巧合： 具有讽刺意味的是，特朗普的AI行动计划本身也呼吁开展与此次演练类似的活动，即组织“AI黑客松”来测试AI系统的漏洞。

一些人认为，报告被搁置也可能与政府将焦点更多地转向AI开发生物或化学武器的风险，以及寻求与大型科技公司建立更紧密的关系有关。正如一位红队成员所说：“我们当时就觉得这次演练会有很多科学洞见——现在我们仍然这么认为。说到底，背后一定有政治因素。”