Synth Daily

读万卷书,不如行万里路?强化学习之父的警告,以及一个我们(可能)不愿面对的未来

强化学习之父理查德·萨顿 (Richard Sutton) 批评当前的大型语言模型 (LLM) 缺乏真正的智能,他认为智能应源于与真实世界的互动,而非仅仅是知识整合。这一观点引出了一个核心问题:学习是否必须是亲身经历?文章探讨了AI通过整合海量数据实现智能的可能性,并分析了AlphaZero式自我学习在现实应用中的挑战。最终的结论是,未来可能形成一种“人机混合心智”:AI成为强大的知识整合者,而人类的价值则转向提出突破性问题和设定目标,二者协同合作,共同定义文明的未来。

“如果我们能理解一只松鼠,我们几乎就走完通往智能的所有道路。”

人工智能奠基者之一理查德·萨顿认为,当前主流的大型语言模型 (LLM) 更像是“超级图书馆员”,擅长整理和复述已有的知识。在他看来,真正的智能必须源自 “目标—行动—回馈” 这一在真实世界中互动的闭环。

这一观点不仅是对AI发展路径的诘问,也引出了一个更深层的问题:智慧是否必须来自亲身经验?

“读万卷书”能否超越“行万里路”?

“读万卷书,不如行万里路”这句格言完美诠释了萨顿的理念:书本知识是间接的,只有亲身探索世界,在试错中学习,才能拓展智能的边界。但让我们做一个思想实验:

  • 亲身实践者: 一个人为了解雨天山路的危险,亲自上山,摔得膝盖流血,最终获得了第一手经验。
  • 知识整合者: 另一个人从未在雨天登山,但他阅读分析了一百份事故报告,最终能精确预测何种条件下最危险。

萨顿会认为第一个人拥有“真实智慧”。但第二个通过整合“他人经验”来避免重复试错的方式,难道不是智慧吗?这正是文明前进的机制。

这引出一个假设:智能的可扩展性,或许不取决于是否亲身体会,而取决于能否持续整合“目标—行动—回馈”的经验数据。当AI成为一个汇聚全人类经验的中心时,一种新的分工便出现了:

  • AI: 坐在中枢,从巨大的数据流中抽象出核心规律。
  • 人类: 在边缘与环境互动,提供新奇的样本和突破性的问题。

AI不需要自己走那万里路,因为它早已整合了我们所有人走过的每一条路。

数据的维度决定智能的深度

萨顿担心的另一个问题是,人类的文本知识总有耗尽的一天。然而,技术的演进可能低估了。如果AI的感知能力超越语言和视觉,拓展到听觉、触觉、嗅觉等多模态数据,它对世界的理解将发生质变。

未来,AI甚至可能通过逼真的虚拟模拟环境来“体验”世界,在安全可控的条件下快速迭代学习。这样,它获得的经验流将远超任何单一生命体。

AlphaZero的启示与现实的高墙

AlphaZero是萨顿理想模型的典范:它不依赖人类棋谱,仅靠自我对弈便超越了所有对手。但将这种纯粹的自学模式推广到开放世界,会撞上三堵高墙:

  • 第一道墙:效率与成本。 在规则模糊的开放世界里从零开始学习,可能需要天文数字般的时间与能源。相比之下,预训练模型压缩了世界的基本结构,是一种“便宜的先验知识”。一条更务实的路线是:先预训练,再连接真实环境进行互动和修正。

  • 第二道墙:社会接受度。 自我学习的系统是一个更彻底的“黑盒子”,其行为难以预测和追责。在医疗、金融等关键领域,一个行为可预测、可理解的AI,即使偶尔犯错,也比一个无法理解的“完美AI”更容易被社会接纳。我们不希望从“无人为偏置”滑向“无人能监督”。

  • 第三道墙:目标从何而来? 这是最根本的问题。

智能的终极问题:目标从何而来?

萨顿的理论基石是“智能在于拥有目标,并为之行动”。但棋局有明确的胜负,人类社会的目标却模糊、多变甚至相互矛盾。

如果我们连自己的目标都说不清楚,凭什么要求 AI 必须有一个明确的目标函数?

从演化角度看,生物的唯一潜在目标是传递基因,“适应”环境,而非必然“进步”。对人类而言,“定义目标”本身,才是智能最深刻的展现。文明的突破,往往来自那些质疑现有规则、创造新目标的人。

在智能新时代,重新定义人的价值

我们可以将人类知识分为两类,以理解AI与人的不同价值:

  • “为什么会这样”: 观察、解释、理解现有现象。LLM在这方面表现惊人,能整合海量信息,归纳模式。
  • “如何才能那样”: 创造、发明、实现尚未存在的事物。LLM能重组已知元素,但难以开创全新范式。

真正的范式突破需要跳出已知空间,这恰恰是人类的独特价值所在。我们的任务不是和AI比赛解题速度,而是去决定哪些全新的问题值得被提出

“人机混合心智”:从对立走向分工

根据“延伸心智”理论,我们的认知边界不止于大脑,外部工具也是心智的一部分。从这个角度看,LLM不再是我们的对手,而是有史以来最强大的“外部认知硬盘”

这构成了一个“人机混合心智”的框架,其中存在明确的专业分工:

  • AI 组件: 完美承担“读万卷书”的任务,负责处理海量数据与知识整合。
  • 人类组件: 解放出来,更专注于“行万里路”,负责提供目标、意图和价值判断。

问题不再是“AI会取代我们吗?”,而是“在这个全新的混合心智下,我们如何为它设定方向与意义?”

迎接一个我们无法完全理解的未来

萨顿的警告提醒我们,在技术狂欢中不应忘记智能的本质。他所倡导的“探险家AI”是一条高风险、高回报的路径,它可能突破人类知识的边界,但也可能加剧我们对黑盒子的担忧。

而另一条路,是学会与AI这个新智能物种共存。在这条路上,我们的角色将从答案的提供者,转变为问题的提出者与风险的承担者。最终,理解AI的终点,或许是更深刻地理解我们自己——在一个不再由人类主宰智能的未来,生而为人的独特价值与最终使命究竟是什么。