强化学习(RL)在计算效率上远低于监督学习。这不仅因为强化学习获取单个奖励信号需要展开漫长的决策过程,更关键的是,每个样本本身包含的信息密度(Bits/Sample)也极低。在训练初期,模型几乎不可能猜对答案,导致学习信号极其稀疏且方差巨大。只有当模型能力提升,通过率(pass rate)达到一定水平后,RL 才能进入有效学习区间。尽管如此,RL 学到的信息虽少,但与解决实际任务直接相关,价值更高。为了提升效率,可以采用课程学习、自我对弈等策略,但仍需解决其学习成果“锯齿状”和泛化能力不足的问题。
效率低下的双重原因
人们通常关注强化学习获取样本的计算成本(Samples/Flop)很高,因为模型需要执行数万个步骤才能获得一个最终的奖励信号。但这只是问题的一半。我们还需要关注另一个关键因素:每个样本的信息密度(Bits/Sample)。在训练的大部分时间里,RL 在这一点上表现得非常差。
监督学习 (SL): 在预训练中,模型从每个词元(token)中吸收信息。例如,对于句子“天空是”,模型会被直接告知正确答案是“蓝色”,并据此调整参数。每个样本都提供了丰富、明确的指导。
强化学习 (RL): RL 依赖策略梯度,即奖励正确的行为路径,惩罚错误的路径。但一个随机初始化的模型,猜对答案的概率微乎其微。它会不断尝试错误的答案,而每次尝试仅仅得到一个“错误”的反馈,从中能学到的有效信息非常少。
信息密度与“通过率”
我们可以通过“通过率”(pass rate, p)来量化学习效率。通过率指模型给出正确答案的可能性。
在监督学习中,你能学到的信息量大约是 -log(p)。这意味着,你对正确答案的预判概率越低(即越“惊讶”),你从中学到的信息就越多。
在强化学习中,你只能知道“对”或“错”,这是一个二元结果。你能学到的信息量最多是 Entropy(p),这个值在通过率为 50% (
p≈ 0.5) 时达到峰值。如果你几乎总是成功或几乎总是失败,那么每次试验都不会带来太多新信息。
如果我们将通过率放在对数尺度上观察(这更符合模型能力提升所需的计算量),会看到一幅令人沮丧的画面:RL 只有在训练末期,当模型已经相当不错时,其信息密度才能与监督学习相媲美。
训练初期的方差问题
情况实际上比上述分析更糟,因为存在巨大的方差。
在 RL 训练初期,由于通过率极低,模型需要采集天文数字般的样本量,才有可能偶然碰到一次正确答案并从中学习。例如,对于一个词汇量为 10 万的单次预测任务,你需要大约 30 万次尝试,才有 95% 的希望能看到一次正确答案。
有趣的是,监督学习的预训练在训练末期会遇到相反的方差问题。当模型已经学得很好时,大部分损失来自于数据中固有的、无法预测的噪声(例如,“鲍勃最喜欢的颜色是?”没有唯一正确答案),这会干扰模型学习真正有用的信号。
如何进入 RL 的“黄金学习区”?
既然 RL 在通过率较高时才有效,那么关键就在于如何构建训练过程,让模型能进入并保持在这个高效学习的状态。
课程学习 (Curriculum Learning): 从简单的任务开始,随着模型能力的提升逐步增加难度。这确保了模型始终面对一个具有挑战性但并非不可能完成的任务,从而维持一个合理的通过率。
自我对弈 (Self-play): 让模型与一个和自己水平相当的对手竞争。这种方式能自然地将通过率维持在 50% 左右,这正是 RL 信息密度最高的点。
代理奖励 (Proxy Rewards): 设计一个更容易达成的中间目标或过程奖励。例如,即使最终答案错误,但如果推理过程的早期步骤是正确的,也给予部分奖励。这能提供比最终成败更密集的反馈信号。
RL 所学信息的独特价值
尽管 RL 的学习效率低,但它学到的信息与监督学习学到的并不可同日而语。
任务相关性: 预训练教模型的是互联网数据的分布模式,这与“如何完成有经济价值的任务”只有间接关系。而 RL 旨在直接教会模型如何解决问题。
纠错与策略: 静态的预训练语料库不包含模型犯错后如何纠正的思考过程。RL 则能教会模型如何利用其独特的、非人类的技能组合来完成任务。
这也解释了为什么人们说 RL 只是在“激发”预训练模型中已经存在的潜力。如果预训练模型没有一个足够高的初始通过率,RL 根本无法启动学习过程。
RL 学习的“锯齿状”表现
一个普遍的观察是,RL 训练出的模型似乎只是将特定的问题模式与固定的思维套路联系起来,而没有学会更通用的、灵活的解决策略。
这导致了一种奇怪的“锯齿状”能力:模型可能在编程竞赛中达到世界级水平,但同时会在代码中留下极其明显的漏洞和技术债。
这可能是因为,在策略梯度学习中,简单、贪婪的启发式策略更容易被采样和强化,而更复杂、更通用的策略由于初始采样概率极低,反而被逐渐边缘化。如何搭建从简单启发式到通用解决方案的桥梁,是未来需要解决的关键问题。
来自人类学习的启示
人类的学习效率远超当前的 RL 模型。我们不仅仅从最终的“成功”或“失败”这一个比特的信息中学习。人类通过观察、反思和在过程中不断更新自己的世界模型来获取海量信息。
或许,我们不应只关注如何将 RL 的通过率调整到 50% 来榨取那一点点信息。真正的问题应该是:我们如何才能像人类一样,从整个环境中汲取丰富的信息?