我的博客文章《关于 AI 进展的思考(2025 年 12 月)》的音频版
当前基于大语言模型进行强化学习的扩展方法存在根本性缺陷。这种模式依赖于大量“预先烘焙”的、由专家设计的任务来进行训练,缺乏人类那种自我导向和持续学习的能力。真正的通用人工智能(AGI)及其广泛的经济价值,关键在于从经验中持续学习和积累,而不是单纯地扩大模型规模。目前的技术扩散缓慢恰恰反映了其能力的不足,未来AGI的发展将是一个由多家实验室竞争推动的渐进过程,实现真正人类水平的持续学习可能还需要5到10年。
当前扩展方法的困境
一些人对基于大语言模型的强化学习(RL)规模化抱有不切实际的乐观。然而,如果我们真的接近于一个像人类一样的学习者,那么目前这种依赖于可验证结果进行训练的整个方法注定是失败的。
- “预烘焙”技能的局限性: 各大实验室正试图通过“中期训练”将大量技能植入模型。这催生了一条完整的产业链,专门构建RL环境来教模型如何使用浏览器或Excel。
- 一个根本性的矛盾: 要么模型很快就能在工作中自我导向学习,让所有这些预先的训练变得毫无意义;要么它们不能,这意味着AGI并非迫在眉睫。人类并不需要经历一个特殊的训练阶段来预演他们可能需要使用的每一个软件。
当我们看到前沿模型在各种基准测试上取得进步时,我们不应只想到规模的扩大和巧妙的机器学习思想,还应想到花费了数十亿美元聘请博士、医生和其他专家来编写问题、提供答案和推理,以专门针对这些能力。
这种矛盾在机器人技术中表现得尤为明显。机器人本质上是一个算法问题,而不是硬件或数据问题。只需很少的训练,人类就能学会如何远程操作现有硬件来完成有用的工作。如果我们有一个像人类一样的学习者,机器人技术的大部分问题将迎刃而解。
有人反驳说,我们必须通过这种笨拙的强化学习来构建一个超人的AI研究员,然后让它去解决高效学习的问题。但这就像那个老笑话:“我们每笔交易都在亏钱,但我们会通过规模来弥补。” 指望一个连儿童基本学习能力都不具备的AI来解决AGGI这个困扰了人类近一个世纪的难题,是极不可信的。
人类劳动的真正价值:无需繁琐的训练
一位生物学家认为AI要走的路还很长,因为她的工作需要判断幻灯片上的一个点究竟是真的巨噬细胞,还是仅仅看起来像。AI研究人员可能会说:“图像分类是教科书式的深度学习问题——我们能轻松训练一个模型来做这个。”
这个交流揭示了一个关键分歧。人类工作者的价值恰恰在于我们不需要为他们工作的每个细小部分都建立繁琐的训练循环。为一个特定实验室的幻灯片准备方式定制一个训练流程,然后再为下一个实验室的特定微任务做同样的事,这是不划算的。你真正需要的是一个能够从语义反馈或自我导向的经验中学习并举一反三的AI,就像人类一样。
- 日常工作的复杂性: 每天,我们都要做上百件需要判断力、情境意识以及在工作中习得的技能和背景知识的事情。
- 个性化与动态性: 这些任务不仅因人而异,甚至同一个人每天面对的任务也不同。
- 自动化之难: 仅靠“预烘焙”一组预定义技能,不可能完全自动化哪怕一个工作岗位,更不用说所有工作了。
“经济扩散滞后”是对能力缺失的掩饰
有人说,AI未能广泛部署并创造巨大价值(编码除外)是因为技术扩散需要时间。我认为这是一种借口,用来掩盖这些模型根本不具备实现广泛经济价值所需的能力。
新技术融入经济需要很长时间?那么问问你自己:高技能、经验丰富、有创业精神的移民人类是如何立即融入经济的?一旦你回答了这个问题,请注意AGI也能做到这些。
如果这些模型真的像服务器上的人类,它们的扩散速度会快得惊人。事实上,它们会比普通人类员工更容易融入和上手(它们可以在几分钟内读完你所有的Slack和Drive,并立即提炼出其他AI员工的所有技能)。目前实验室的收入与知识工作者数万亿美元的年薪总额相差四个数量级,原因就在于模型的能力远不及人类知识工作者。
移动“球门”是合理的
批评者常指责AI怀疑论者不断移动“球门”,但某种程度的“移动球门”是合理的。我们不断解决那些我们曾认为是AGI充分瓶颈的问题(如通用理解、少样本学习、推理),但我们仍然没有实现AGI。
理性的反应应该是:“哦,原来智能和劳动比我之前想的要复杂。尽管我们已经接近甚至超越了我过去对AGI的定义,但模型公司没有赚取数万亿美元收入这一事实,清楚地表明我以前的定义太狭隘了。”
模型正以短期预测者预言的速度变得更令人印象深刻,但却以长期预测者预言的速度变得更有用。
强化学习扩展的“虚假繁荣”
在预训练中,我们看到了一个非常清晰和普遍的趋势。人们正试图将预训练规模化几乎如物理定律般可预测的声望,嫁接到强化学习(RL)上,以证明其乐观前景。然而,RL领域并没有这样明确的公开趋势。当研究人员试图从稀缺的公开数据点中拼凑出线索时,他们得出的结论相当悲观。
例如,Toby Ord的分析表明,“我们需要将总RL计算量扩大约1,000,000倍,才能获得类似于GPT级别的提升”。
未来的关键:持续学习与渐进式发展
未来AI进步的主要驱动力将是持续学习,即从相关领域的经验中学习,就像人类一样。
未来的场景可能是:持续学习的智能体外出工作并创造价值,然后将它们所有的学习成果带回“蜂巢思维”模型中,进行某种批量提炼。
- “解决”持续学习不会是一蹴而就的。 它会更像是解决“情境学习”(In-context Learning)的过程。GPT-3展示了其强大能力,但真正的完善是渐进的,至今仍在进行中。
- 渐进式的发展: 明年某个实验室可能会发布他们称之为“持续学习”的东西,这会是进步,但达到人类水平的持续学习可能还需要5到10年的进一步发展。
- 竞争将保持激烈: 不会出现某个模型因破解持续学习而一家独大的情况。一旦有实验室取得初步突破,其他实验室会迅速复制并加以改进。人才挖角、小道消息或逆向工程等力量,至今已中和了任何单一实验室可能拥有的领先优势。