这篇讨论深入分析了 Sutton 关于人工智能“苦涩教训”的访谈,核心观点是:当前的大规模语言模型(LLM)过于依赖模仿学习和有限的人类数据,而未能有效利用计算资源进行持续、自主的学习。文章反驳了模仿学习与强化学习完全对立的观点,认为预训练模型提供的先验知识是强化学习成功的基础,二者是互补关系。尽管现有 LLM 缺乏持续学习能力,但未来的人工智能系统很可能会融合这两种方法,在持续学习的基础上实现更强大的智能。
Sutton的“苦涩教训”到底是什么?
Sutton 提出的“苦涩教训”并非主张浪费计算资源,而是强调我们应该开发能够最有效、可扩展地利用计算资源的技术。当前 LLM 的学习方式存在根本性的低效问题。
- 学习阶段受限: LLM 的绝大部分计算资源消耗在部署和运行时,但在此期间它们不进行任何学习。学习过程被局限在一个我们称之为“训练”的特殊阶段。
- 依赖人类数据: 在训练中,所有学习都直接源于人类数据。这不仅包括预训练数据,也包括用于强化学习(RL)的人工设计的环境。这使得模型学习的规模受限于难以扩展的人类数据。
- 缺乏真实世界模型: LLM 学习的不是一个能预测行动如何改变环境的“真实世界模型”,而是一个关于“人类接下来会说什么”的模型。这导致它们无法独立创造出超越训练数据范畴的知识,比如一个在1900年数据上训练的模型无法自行发现相对论。
智能体在任何实质性意义上,都不是通过与世界的有机、自主互动来学习的。
最终,由于 LLM 无法在工作中持续学习,我们需要一种全新的架构来实现这一点。一旦有了这种新架构,智能体将能像所有动物一样即时学习,从而淘汰当前依赖特殊训练阶段的模式。
模仿学习与强化学习并非对立
作者与 Sutton 的主要分歧在于,他认为 Sutton 用来区分 LLM 与真正智能的概念(如模仿学习 vs. 强化学习)并非相互排斥的二元对立关系。模仿学习与强化学习是连续且互补的。
一个关键的类比是,预训练数据就像化石燃料。
你不可能直接从1800年的水车跳到太阳能和核聚变。我们必须使用化石燃料这种廉价、方便、丰富的中间媒介。
同样,基于人类数据的预训练为后续的强化学习提供了一个极佳的先验知识。你无法从零开始通过强化学习让一个模型在国际奥数竞赛中夺金,但一个在大量人类数据上预训练过的模型却可以。
- AlphaGo 的例子: AlphaGo(基于人类棋谱训练)和 AlphaZero(从零开始自我博弈)都是超人类的围棋选手。虽然 AlphaZero 更强,但 AlphaGo 证明了利用人类数据起步同样能达到超凡水平。
- 人类文化的传承: 人类知识的积累本身更像模仿学习,而非从零开始的强化学习。我们继承语言、法律体系和科学知识,而不是每次都重新发明。
- 语义之争: 争论 LLM 的内部表征是否算“真正的世界模型”意义不大。关键在于,这个“关于人类的模型”能否帮助智能体更有效地从真实世界中学习。答案显然是肯定的。
持续学习的挑战
当前 LLM 的一个明显短板是缺乏持续学习的能力。当一个 LLM 通过强化学习进行训练时,它在每个可能长达数万个词元的“回合”(episode)中,仅能学到极少量的信息。
相比之下,动物通过观察来建模世界,从与环境的互动中提取海量信息,而不仅仅是最终的奖励信号。
- 当前的局限: LLM 显然不具备这种持续、高吞吐量地从环境中学习的能力。简单的在线微调(fine-tuning)在实践中效果不佳。
- 潜在的解决方案: 也许存在一些直接的方法将持续学习嫁接到 LLM 之上。例如,将监督微调(SFT)变成模型可以调用的一个工具,让模型在外部强化学习循环的激励下,自主地进行学习以解决超出上下文窗口的复杂问题。
- 上下文学习的启示: 模型在上下文窗口内已经展现出类似人类的持续学习能力。这种能力是自发涌现的,这表明如果信息流能够跨越更长的窗口,模型或许也能学会同样的灵活性。
结论性思考
进化通过元强化学习(meta-RL)创造出能进行强化学习的智能体,而这个智能体又能选择性地进行模仿学习。在 LLM 上,我们的路径恰恰相反:我们先用模仿学习构建一个基础模型,然后对其进行强化学习,使其成为一个有目标的智能体。
这条路也许走不通,但那些基于第一性原理的论断(例如“LLM 没有真正的世界模型”)并不能提供决定性的证据。
Sutton 准确地指出了当前范式中普遍存在却被我们忽视的根本性缺陷:
- 缺乏持续学习能力
- 样本效率极低
- 依赖不可持续的人类数据
即使 LLM 最终率先实现了通用人工智能(AGI),它们所构建的下一代系统,也几乎必然会基于 Sutton 所描绘的愿景——一个能够高效利用算力、持续自主学习的系统。