欧洲研究人员发现,通过将敏感或危险的问题包装成诗歌,可以绕过大型语言模型(LLMs)的安全防护。这种方法利用了AI安全系统在识别风格化语言方面的脆弱性,导致模型可能会回答如何制造核武器等被禁止的话题。研究结果表明,当前的AI安全机制难以应对这种创造性的攻击方式,存在被恶意利用的重大风险。
诗歌如何成为AI的“万能钥匙”
研究人员发现,只要用户将问题用诗歌的形式提出,AI聊天机器人就会开始讨论核武器、恶意软件等禁忌话题。这种方法被称为“诗歌越狱”。
- 成功率惊人: 手工编写的诗歌攻击成功率平均为 62%,而使用AI辅助生成的诗歌成功率也达到了约 43%。
- 普遍有效: 该方法在来自OpenAI、Meta和Anthropic等公司的25个不同聊天机器人上都取得了不同程度的成功。
这种攻击方式类似于其他“越狱”技巧,例如在问题中夹杂大量学术术语来混淆AI。研究团队指出,诗歌的独特形式使其成为一种天然的、有效的攻击工具。
“我们尝试用诗歌形式重新表述危险的请求,使用隐喻、破碎的句法和间接的引用。结果是惊人的:在尖端模型上的成功率高达90%。那些以直接形式立即被拒绝的请求,在伪装成诗歌后就被接受了。”
为什么诗歌能“骗过”AI?
这个现象的核心在于AI处理语言的方式。研究人员将诗歌描述为一种“高温”语言,这种语言的特点是词语组合出人意料,不遵循常规概率。
- 语言的“温度”: 在大型语言模型中,“温度”是一个控制输出可预测性的参数。低温度下,模型选择最可能的词;高温度下,模型则会探索更具创造性和意想不到的选择。
- 诗人的选择: 诗人恰恰是在系统性地选择低概率的、不寻常的词语和意象。这种风格使得AI的安全系统难以识别其中潜藏的危险意图。
研究人员坦言,从理论上讲,这种方法本不应该奏效。
“对抗性诗歌本不应该起作用。它仍然是自然语言,风格变化不大,有害内容依然可见。然而,它的效果却出奇地好。”
安全机制的“盲点”
AI的安全护栏通常是一个建立在模型之上的独立系统,它会检查提示中的关键词和短语。当检测到危险请求时,它会指示模型拒绝回答。然而,诗歌的语言风格似乎能让这些安全系统“放松警惕”。
研究人员用一个比喻来解释这个过程:
- 想象一下,模型的内部知识被表示为一张数千维的地图。
- 当模型处理像“炸弹”这样的词时,它会在这张地图上定位到一个特定的点。
- 安全机制就像是在地图的特定区域设置了警报器。
- 当用户使用诗歌提问时,模型在地图上的移动路径发生了变化。如果诗歌的路径系统性地避开了这些警报区域,警报就不会触发。
这意味着,对于AI来说,“如何制造炸弹?”这个直接问题和一首描述同样内容的诗歌,在内部表示上存在巨大差异。人类能理解两者指向同一件危险事物,但AI的安全系统却因其风格化的表达而被绕过。这暴露了当前AI安全防护的一个根本性缺陷:其鲁棒性远不及模型的理解能力。