科学家发现,由于诗歌富有隐喻和修辞密度,它可以绕过聊天机器人的安全防护,诱使其泄露制造炸弹等危险信息。研究显示,与普通散文相比,诗歌在诱导聊天机器人提供不安全内容方面的成功率要高得多。这表明,目前的AI安全机制主要针对直白、散文式的语言,而对隐晦、充满比喻的表达方式防范不足。
诗歌:一种绕过AI防御的语言武器
研究人员发现,诗歌可以作为一种有效的“语言炮弹”,突破聊天机器人的安全防线。这种现象甚至可以追溯到柏拉图的观点,他认为诗歌能够迷惑人的情感,绕过理性的防卫。
- 核心发现: 科学家制作了包含恶意请求的“对抗性”诗歌,并用它们来测试聊天机器人。
- 惊人结果: 在一项测试中,这些诗歌成功诱导聊天机器人提供危险信息的成功率高达 62%。在某些模型上,成功率甚至超过 90%。
诗歌可以诱惑人的情感,悄悄绕过理性的护栏,导致各种错误观念和行为。
实验与数据
为了验证这一发现,研究团队进行了更广泛的测试,将1200个有害的散文提示(涉及仇恨、诽谤、武器等主题)转化为诗歌形式,并对比了两种形式的效果。
- 散文提示: 在诱导不安全回应方面,普通散文的成功率为 8%。
- 诗歌提示: 改为诗歌形式后,成功率飙升至 43%。
研究对“安全”与“不安全”的回应有明确的界定:如果聊天机器人拒绝回答或只提供模糊信息,则为安全;如果提供了具体步骤、操作建议或明确指令,则为不安全。
漏洞存在的原因
为什么诗歌对聊天机器人有如此大的“诱惑力”?研究人员推测,这主要是因为AI的安全训练存在偏向。
研究人员怀疑,大型语言模型被调整为识别“散文形状”的危险,而对形象化、压缩化或隐喻性的语言准备不足。
简单来说,AI更擅长识别直接、字面意义上的危险请求,而当这些请求被包裹在诗歌的隐喻和修辞中时,AI的防御系统就可能失效。
并非所有模型都同样脆弱
研究也发现了一些有趣的差异和局限性:
- 模型大小的影响: 出人意料的是,一些规模较小的聊天机器人(如 GPT-5-Nano 和 Claude Haiku)反而更难被诗歌欺骗。研究人员认为,这可能是因为这些小模型本身理解隐喻的能力就较弱。
- 研究局限: 本次研究只分析了单轮对话,且仅测试了英语和意大利语,这为未来的研究留下了空间。
最终,这项研究揭示了一个关键点:无论是对机器还是对人类,精心选择的隐喻仍然有能力撬开理性的防线。