AI幻觉,真的是激励机制惹的祸吗?
一项来自 OpenAI 的新研究指出,大型语言模型产生“幻觉”(即编造看似真实但错误的陈述)的根本原因,可能在于其激励机制设置不当。模型在训练时只学会了预测下一个词,而非辨别真伪;同时,现有的评估体系过度奖励猜测行为,而非鼓励模型在不确定时承认“不知道”。研究者因此提议,应改革评估方法,通过引入对错误答案的负面评分和对不确定性表达的奖励,来引导模型变得更加谨慎和诚实。
什么是 AI 幻觉?
幻觉指的是语言模型生成的“看似合理但错误的陈述”。尽管技术在进步,这仍然是所有大型语言模型面临的一个根本性挑战。
为了说明这一点,研究人员向一个主流聊天机器人询问其团队成员的博士论文题目和生日,结果得到了多个完全不同的错误答案。这暴露了一个核心问题:模型不仅会犯错,而且在犯错时显得异常自信。
幻觉产生的原因
模型的错误行为部分源于其训练和评估方式。
预训练过程的缺陷:模型在训练阶段只看到海量流畅语言的正面例子,其目标是学会预测下一个词,而不是验证信息真伪。它能学会拼写、语法等固定模式,但无法仅靠模式推断出低频、任意的事实(比如一个人的生日)。
评估体系的错误激励:当前的评估方法本身不直接导致幻觉,但它们“设定了错误的激励机制”。
这就像参加一场选择题考试,胡乱猜测或许能侥幸得分,而留空则保证是零分。同样,当模型只因“答对问题”而获得奖励时,它们就被鼓励去猜测,而不是说“我不知道”。
如何通过改变激励机制来解决问题?
解决方案的重点不在于改变初始训练过程,而在于改革评估模型的方式。研究人员建议,评估体系需要像某些标准化考试(如SAT)一样,引入新的计分规则来抑制盲目猜测。
具体的改革建议包括:
- 惩罚自信的错误:对模型给出的错误答案进行负面评分,使其代价高于表达不确定性。
- 奖励诚实的未知:为模型恰当地表达不确定性(例如回答“我不知道”)提供部分分数。
- 全面更新评估标准:不能只在一旁增加几个“感知不确定性”的新测试,而是需要直接更新那些被广泛使用的、基于准确率的核心评估体系。
研究者总结道:“如果主要的计分板继续奖励侥幸的猜测,模型就会继续学习如何猜测。” 只有改变游戏规则,才能从根本上激励模型变得更加可靠。