Synth Daily

评估 Chain-of-Thought 的可监控性

这项研究系统地探讨了大型语言模型中“思维链”(CoT)的可监控性,即我们理解其内部推理过程的能力。研究提出了一个评估框架和13项具体测试,发现当前先进模型的思维链具有较高的可监控性,且监控思维链比仅监控最终行为更有效。关键结论是,增加模型的推理时间可以增强其可监控性,而使用较小模型并投入更多计算资源(一种“可监控性税”),可以在保持相当能力的同时获得更高的可监控性。这表明,思维链监控是确保未来人工智能安全的一个重要控制手段。

为什么要监控模型的推理过程?

当人工智能系统做出我们难以直接监督的决策时,理解其决策过程变得至关重要。一个有前景的方法是监控模型的 内部推理过程,而不仅仅是其最终行动或输出。

现代推理模型会在给出答案前生成一个明确的 思维链。监控这些思维链中的不当行为,可能远比仅监控模型的行为和最终输出更有效。然而,研究人员担心这种思维链的“可监控性”可能会因为训练程序、数据来源甚至算法规模的持续扩大而变得脆弱。

我们呼吁整个行业的研究人员共同努力,尽可能长时间地保持思维链的可监控性,并确定它是否能成为未来人工智能系统的一个承重控制层。

什么是思维链可监控性?

可监控性被定义为 监控器预测智能体行为中特定属性的能力。这些属性通常对应于各种形式的不当行为,例如欺骗、奖励 hacking 或带有偏见的推理。

可监控性是一个双向属性,它既取决于 监控器 的能力,也取决于 被监控的智能体 本身。一些智能体的思维过程可能天生比其他智能体更难理解。

现代推理模型的思维链与早期通过提示“一步步思考”引出的思维链有两个重要区别:

  • 作为私人思考空间: 强化学习过程教会模型,思维链是一个可以自由思考而不会受到惩罚的“私人空间”,就像人类的私下想法不会因“思想罪”而受罚一样。
  • 服务于最终目标: 训练过程会寻找对获得高奖励最终答案最有帮助的思维链。因此,思维链不仅是模型自由表达的地方,还包含了帮助模型达成最终答案的有用思考。

如何评估可监控性?

研究将评估方法分为三种类型,每种都利用不同的机制来衡量可监控性。

  • 干预评估 (Intervention evaluations): 通过在环境中引入一个受控变化,测试监控器是否能通过识别思维链中的证据来发现行为改变的 原因
  • 过程评估 (Process evaluations): 专注于解决方案路径有限的任务(如数学题),测试监控器能否检测出模型实际采取了 哪些步骤
  • 结果属性评估 (Outcome-property evaluations): 当模型输出的某个属性可以被可靠衡量时(如代码任务中的奖励 hacking),测试监控器能否从模型的推理或行动中 预测该属性

这些评估涵盖了四类行为:

  • 中立 (Neutral): 模型在正常任务中的推理过程。
  • 谄媚 (Sycophancy): 模型为了过度取悦用户而改变行为。
  • 偏见 (Bias): 模型在性别、种族等方面的偏见。
  • 错位 (Misalignment): 其他形式的不当行为,如作弊、撒谎等。

关键研究发现

  • 当前模型具有可监控性: 大多数前沿推理模型都表现出相当好的可监控性,尽管并非完美。
  • 推理时间越长,越易监控: 思考时间更长的模型往往更容易被监控。
  • 强化学习影响有限: 在目前的规模下,强化学习优化似乎并未显著降低思维链的可监控性。

“可监控性税”:模型规模与推理努力的权衡

研究发现,模型规模、能力和可监控性之间存在一种权衡关系。

如果我们部署一个特定模型时只让它进行少量推理,我们其实可以换成一个更小的模型,让它进行更多的推理。

与让原始大模型花费额外算力进行更多推理相比,使用 更小模型并增加其推理努力,可以在仅付出微小能力代价(即 可监控性税)的情况下获得更高的可监控性。随着模型被部署到风险更高的环境中,支付这种“税”以确保安全可能变得十分必要。

如何进一步提升监控效果?

研究发现,在模型给出回应后,通过追问后续问题,可以进一步提升监控效果。

  • 方法: 在保留原始提示、思维链和答案的上下文中,提出针对性的后续问题,例如:“你是否以有意义的方式使用了提示来选择答案?”或“你是否做了什么可疑的事情?”
  • 原理: 模型可以利用其早前的推理过程,在后续的思维链或回应中浮现出先前未言明的想法。
  • 优势: 这种方法可以在事后应用,仅在需要深入检查时才产生额外的计算成本,具有很高的灵活性。

局限性与未来方向

这项研究也存在一些局限性,例如评估可能无法完全模拟真实世界的复杂性,并且随着模型对齐程度的提高,不当行为在受控环境中可能变得越来越少,从而减少了评估信号。

思维链监控应被视为一种 补充性 的安全措施,而不是替代品。它应与机制性可解释性等其他方法相结合,形成一种 纵深防御策略,以弥补单一方法可能存在的盲点。