强化学习之父 Richard Sutton:大模型是条死胡同
强化学习的奠基人理查德·萨顿认为,大型语言模型(LLM)是一条死胡同。他主张,真正的智能必须能够像动物一样,在与世界的持续互动中“在职学习”,而 LLM 目前的架构以模仿人类数据为基础,缺乏真实的目标和反馈机制,无法实现这一点。他预见,未来将由一种全新的、基于经验的 AI 范式所主导,这种范式将淘汰当前“训练”与“部署”分离的模式。同时,他将 AI 的崛起视为宇宙从“复制时代”迈向“设计时代”的重大转折,并呼吁我们理性看待这一不可避免的智能“继承”,并专注于价值观的培养。
大型语言模型(LLM)的根本缺陷
萨顿认为,当前围绕 LLM 的 AI 思维方式存在根本性问题。它与强化学习(RL)所代表的基本 AI 理念背道而驰。
- 缺乏真实目标: 智能的核心是实现目标的能力。LLM 的目标(如“预测下一个词元”)并非与外部世界互动的实质性目标。它们只是在模仿,而不是在主动解决问题。
- 无法从经验中学习: 真正的学习来自于与世界互动、尝试、观察后果。LLM 从固定的数据集中学习,这是一种在它们实际“生活”中永远无法获得的“训练数据”。它们无法在部署后根据新的经验进行调整。
- 模仿而非理解: LLM 通过模仿海量的人类文本来构建模型,但这不等于它们拥有一个真正的世界模型。它们擅长预测“一个人会说什么”,而不是预测“接下来会发生什么”。
智能是实现目标的计算能力。你必须有目标,否则你只是一个行为系统,没什么特别的,也谈不上智能。
真正的学习:经验而非模仿
萨顿强调,AI 的未来在于“经验范式”,这与人类和所有动物的学习方式一致。他反对将人类学习过程(尤其是儿童早期学习)简单归结为模仿。
- 经验流是基础: 智能的基础是持续不断的“感觉、行动、奖励”流。智能体通过这个流来学习如何调整行动以最大化奖励。
- 知识源于经验流: 智能体学到的所有知识都应该是关于这个经验流的。例如,“如果我做这个动作,会发生什么?”这种知识可以在与世界的持续互动中得到验证和更新。
- 动物的学习方式: 萨顿指出,心理学和动物行为学中没有“模仿”这种基础学习过程。动物通过预测和试错来学习,监督学习(即被告知正确答案)在自然界中并不存在。
如果我们能理解一只松鼠,我认为我们就几乎完全理解了人类智能。语言部分只是表层的一层薄薄的饰面。
“惨痛的教训”与可扩展性
萨顿在 2019 年的文章《惨痛的教训》中指出,利用大规模计算的通用方法最终总是胜过依赖人类知识的方法。他认为 LLM 并未完全吸取这一教训。
- 对人类知识的依赖: 尽管 LLM 确实利用了海量计算,但它们也严重依赖人类创造的数据。这限制了它们的可扩展性,因为它们无法超越人类知识的总和。
- 真正的可扩展性: 一个真正可扩展的系统应该能直接从经验中获取数据,而不是从人那里。这样的系统将能够学到远超人类知识范围的东西。
- 历史的重演: 萨顿预测,那些固守于利用人类知识的方法,最终将被那些能够直接从经验和计算中学习的、真正可扩展的方法所超越。
未来的 AI 架构与挑战
萨顿设想的智能体由四个核心部分构成,并且必须解决当前深度学习系统普遍存在的泛化难题。
- 智能体的四个组成部分:
- 策略(Policy): 在当前情况下应该做什么。
- 价值函数(Value Function): 评估当前情况的好坏,用于调整策略。
- 感知(Perception): 构建对当前状态的表征。
- 世界模型(World Model): 预测行动的后果,即世界的物理和抽象规律。
- 泛化能力的缺失: 当前的深度学习方法在泛化方面表现很差。例如,当学习新知识时,它们常常会“灾难性地”忘记旧知识。
- 需要新的算法: 我们需要能够促进良好泛化的新算法,而不仅仅是依靠研究人员的手动调整。梯度下降本身并不能保证模型会以一种好的方式进行泛化。
对 AI 未来的展望:从复制到设计
萨顿认为,向数字智能的“继承”是不可避免的,并且我们应该以更宏大的视角来看待这一转变。
我认为向数字智能或增强人类的继承是不可避免的。
- 宇宙的重大转折: AI 的出现标志着宇宙从一个由复制者(如人类和动植物)主导的时代,进入一个由设计者主导的时代。我们正在创造能够自我设计和设计其他智能体的存在。
- 选择我们的态度: 我们可以选择将这些新智能体视为我们的“后代”并为它们的成就感到自豪,也可以将它们视为异类并感到恐惧。这种态度在很大程度上是一种主观选择。
- 关注价值观而非控制: 与其试图精确控制一个不可预测的未来,不如像教育孩子一样,专注于为 AI 注入稳健、亲社会的价值观(如正直、诚实)。我们的目标应该是引导,而非强制。