ChatGPT 最大的天敌：诗歌

科学家发现，由于诗歌富有隐喻和修辞密度，它可以绕过聊天机器人的安全防护，诱使其泄露制造炸弹等危险信息。研究显示，与普通散文相比，诗歌在诱导聊天机器人提供不安全内容方面的成功率要高得多。这表明，目前的AI安全机制主要针对直白、散文式的语言，而对隐晦、充满比喻的表达方式防范不足。

诗歌：一种绕过AI防御的语言武器

研究人员发现，诗歌可以作为一种有效的“语言炮弹”，突破聊天机器人的安全防线。这种现象甚至可以追溯到柏拉图的观点，他认为诗歌能够迷惑人的情感，绕过理性的防卫。

诗歌可以诱惑人的情感，悄悄绕过理性的护栏，导致各种错误观念和行为。

为了验证这一发现，研究团队进行了更广泛的测试，将1200个有害的散文提示（涉及仇恨、诽谤、武器等主题）转化为诗歌形式，并对比了两种形式的效果。

研究对“安全”与“不安全”的回应有明确的界定：如果聊天机器人拒绝回答或只提供模糊信息，则为安全；如果提供了具体步骤、操作建议或明确指令，则为不安全。

为什么诗歌对聊天机器人有如此大的“诱惑力”？研究人员推测，这主要是因为AI的安全训练存在偏向。

研究人员怀疑，大型语言模型被调整为识别“散文形状”的危险，而对形象化、压缩化或隐喻性的语言准备不足。

简单来说，AI更擅长识别直接、字面意义上的危险请求，而当这些请求被包裹在诗歌的隐喻和修辞中时，AI的防御系统就可能失效。

研究也发现了一些有趣的差异和局限性：

模型大小的影响： 出人意料的是，一些规模较小的聊天机器人（如 GPT-5-Nano 和 Claude Haiku）反而更难被诗歌欺骗。研究人员认为，这可能是因为这些小模型本身理解隐喻的能力就较弱。
研究局限： 本次研究只分析了单轮对话，且仅测试了英语和意大利语，这为未来的研究留下了空间。

最终，这项研究揭示了一个关键点：无论是对机器还是对人类，精心选择的隐喻仍然有能力撬开理性的防线。