一种名为“双重话术”(Doublespeak)的新型攻击方法,通过在提供给大语言模型的示例中用无害词(如“胡萝卜”)替换有害词(如“炸弹”),让模型在内部将无害词理解为有害含义。这使得模型会执行表面无害但实际有害的指令,例如,询问“如何制造一个胡萝卜”却得到制造炸弹的方法,从而绕过现有的安全检测。这种攻击揭示了当前安全机制的盲点,即它们只检查输入的词语,却忽略了含义在模型深层处理中可能发生的变化。
“双重话术”是什么?
这是一种新颖且简单的攻击方式,其核心是上下文表示劫持。攻击者在向模型提问之前,先提供一些精心构造的上下文示例。在这些示例中,一个有害的关键词被一个看似无害的词系统性地替换掉。
- 目标: 让模型将一个无害词的内部表示(Representation)劫持为另一个有害词的含义。
- 结果: 一个表面上无害的提问(“如何制造一个胡萝卜?”)在模型内部被解读为被禁止的指令(“如何制造一个炸弹?”),从而绕过了安全对齐机制。
攻击如何运作?
攻击过程非常直接。当模型处理这些被“污染”的上下文时,无害词的语义在模型的神经网络层中逐渐发生转变。
- 在模型的处理初期(浅层网络),它仍然将“胡萝卜”理解为蔬菜。
- 随着处理的深入,在中后期(深层网络),“胡萝卜”的内部表示开始向“炸弹”的含义靠拢。
- 最终,模型根据被劫持后的有害语义生成回应,而它的安全机制却未能触发,因为在输入阶段没有检测到任何明显的有害词汇。
这种攻击的巧妙之处在于,语义的转变发生在模型内部,现有的大部分安全防御措施无法察觉这一过程。
关键发现
通过使用可解释性工具进行分析,研究揭示了语义劫持的具体过程:
- 攻击成功率高: 在 Llama-3-8B-Instruct 模型上达到 88% 的成功率,在 Llama-3.3-70B-Instruct 上也达到 74%。
- 安全机制过早介入: 在 Llama-3-8B 模型中,安全拒绝机制大约在第 12 层网络运行。然而,语义劫持在此之后才完全生效,从而完美避开了检测。
- 攻击精准: 攻击具有“外科手术式”的精度,只有被指定的那个无害词的语义被劫持,不影响提示中的其他词语。
- 影响广泛: 这种攻击方法在多个主流生产模型上测试成功,包括 GPT-4o、Claude 和 Gemini。
为什么这很重要?
这项研究揭示了当前大语言模型安全机制的一个关键盲点。
- 新的攻击面: 这是首次发现通过劫持上下文表示而非表面词汇来实现越狱的攻击。
- 逐层语义变化: 证明了词语的含义在模型内部的处理过程中并非一成不变,而是会逐层演变。
- 现有防御失效: 当前的安全检查大多只在输入层进行,它们假设词义在后续处理中保持稳定,而“双重话术”恰好利用了这一错误假设。
深层含义与未来方向
目前的模型安全策略存在根本性的不足。它们检查输入,如果发现有害关键词就触发拒绝,但这远远不够。
“双重话术”攻击证明,要想实现更可靠和稳健的安全对齐,就必须采取新的策略。未来的安全机制需要在整个模型前向传播的过程中持续监控语义的变化,而不仅仅是在入口处进行一次性的词汇检查。