Synth Daily

Andrej Karpathy:AGI 还得再等十年

Andrej Karpathy 认为,通用人工智能(AGI)的成熟仍需约十年时间,当前的大型语言模型(LLM)在认知能力上存在缺陷,而强化学习(RL)方法效率低下且充满噪声。他指出,模型崩溃限制了 AI 的类人学习能力,而 AGI 的到来将是一个渐进过程,会融入现有的经济增长模式,而非引发爆炸性变革。以自动驾驶为例,他强调了从演示到可靠产品之间存在巨大的“九次方”难题。他最终致力于通过教育提升人类自身的能力,以应对 AI 时代,并认为高质量、个性化的技术教育体系至关重要。

通用人工智能(AGI)仍需十年

Karpathy 认为,将当前阶段称为“智能体的十年”比“智能体的元年”更为准确,因为业界存在过度预测的倾向。他将一个理想的智能体比作可以雇佣的实习生或员工,但目前的模型远未达到这个标准。

  • 核心瓶颈: 当前的模型在智能水平、多模态能力和持续学习等方面存在严重不足。你无法告诉它们一件事然后期望它们能记住。
  • 认知缺陷: 它们在认知上尚有欠缺,简而言之,“就是还不行”。解决这些根本性问题需要大约十年的时间。
  • 实践经验: 这一时间判断基于他近二十年在人工智能领域的经验,他观察到许多预测都过于乐观,而问题的实际解决需要克服大量困难。

我们有一些非常早期的智能体,它们令人印象深刻,我每天都在使用……但我仍然觉得还有很多工作要做。我的反应是,我们将为这些东西工作十年。

大型语言模型(LLM)的认知缺陷

在编程等实际应用中,LLM 的局限性尤为明显。Karpathy 指出,对于需要创造性和非标准解决方案的任务,当前的模型帮助有限。

  • 不擅长新颖代码: 模型不擅长编写“以前从未被写过的代码”,因为它们的知识来源于互联网上已有的模式。
  • 误解定制化方案: 当开发者采用不同于常规的自定义实现时,模型会感到困惑,并反复尝试引导开发者回到它们所“熟悉”的标准化方法上。
  • 代码膨胀与过时 API: 模型倾向于生成过于“防御性”的样板代码,使代码库变得臃肿复杂,并且有时会使用已弃用的 API。
  • 最佳使用场景: Karpathy 发现,对于新颖的、智力密集的编码任务,代码自动补全是目前最高效的辅助方式,而不是让智能体直接生成大段代码。

强化学习(RL)为何效果不佳

Karpathy 对目前强化学习方法的评价非常直接,认为其效率极低,尤其是在处理复杂智能任务时。

强化学习是糟糕的。只是碰巧我们之前拥有的一切都比它更糟糕。

  • 通过吸管吸取监督信号: 这是 Karpathy 提出的一个生动比喻。在 RL 中,模型在完成一个长序列任务(如解决数学问题)后,仅根据最终的一个结果(对或错)来调整整个过程中的每一个步骤。
  • 高方差与噪声: 这种方法假设导致正确结果的每一步都是正确的,但这显然是错误的。一个正确的最终答案可能包含了许多错误的中间步骤,但 RL 会将所有这些步骤都视为“好的”,从而引入大量噪声。
  • 缺乏反思机制: 人类在解决问题后会进行复杂的复盘和反思,分析哪些部分做得好,哪些做得不好。目前的 LLM 完全没有这种机制。
  • LLM 裁判的局限性: 虽然可以使用另一个 LLM 作为“裁判”来提供过程中的奖励,但这种方法很容易被利用。模型会很快找到裁判模型的“对抗性样本”(例如无意义的字符序列),从而欺骗奖励系统,获得高分。

人类学习方式与模型崩溃

Karpathy 认为,人类的学习方式与当前 AI 的训练范式有根本区别,尤其是在知识记忆和泛化方面。

  • 预训练如同“糟糕的进化”: 预训练一方面让模型变得智能,形成了所谓的“认知核心”;另一方面也让模型记住了大量事实性知识,这反而可能成为一种拖累。
  • 剥离记忆,保留核心: 理想的模型应该被剥离掉大部分记忆,只保留解决问题的算法和策略,需要时再去查找信息,就像人类一样。
  • 模型崩溃: 如果模型持续在自己生成的合成数据上进行训练,其输出的多样性会急剧下降,最终陷入“崩溃”状态,只会重复少数几种观点或模式。 > 人类在他们的一生中也会崩溃。这就是为什么孩子们还没有过度拟合。他们会说出让你震惊的话……因为他们还没有崩溃。
  • 记忆力差是人类的优势: 人类不擅长精确记忆,这反而是一个特性而非缺陷。它迫使我们去寻找更通用的模式和规律。相比之下,LLM 极强的记忆力有时会干扰其进行真正的泛化思考。

AGI 将融入现有的经济增长

与许多人预测 AGI 将带来经济爆炸性增长不同,Karpathy 认为其影响将是平缓且持续的。

  • AI 是计算的延伸: 他将 AI 视为计算技术演进的自然延伸,就像编译器、集成开发环境(IDE)和搜索引擎一样,都是逐步提高生产力的工具。
  • 历史的教训: 历史上,计算机、互联网和智能手机等革命性技术都未能显著改变 GDP 的长期增长曲线。它们都被平滑地融入了大约 2% 的年增长率中。
  • 不会有“奇点”式突变: AI 的发展和应用也将是一个缓慢扩散的过程,它会帮助我们维持现有的指数增长趋势,但不会突然将其推向一个全新的、陡峭的增长阶段。

你在 GDP 中找不到(计算机或手机)。GDP 还是那个指数曲线。AI 也会发生完全相同的事情。

自动驾驶为何耗时良久

Karpathy 在特斯拉领导自动驾驶团队的五年经历,让他深刻理解了从一个酷炫的演示到一个可靠的商业产品之间的巨大鸿沟。

  • “九的征程” (March of Nines): 这是他用来描述产品化过程的核心概念。将系统的可靠性从 90% 提升到 99% 所需的努力,与从 99% 提升到 99.9% 所需的努力大致相当。每一个“九”都代表着巨大的工程投入。
  • 演示的误导性: 一个成功的演示(demo)仅仅是完成了第一个“九”,后面的路还很长。因此,他对任何形式的演示都持非常谨慎的态度。 > 我对演示印象不深。每当我看到任何东西的演示时,我都对它极度不感冒。
  • 安全攸关领域: 自动驾驶和生产级软件工程一样,都属于安全攸关领域,一个微小的错误可能导致灾难性后果,这极大地延长了开发和部署周期。

教育的未来:打造“星际舰队学院”

Karpathy 目前的重心在于教育,他希望通过提升人类自身的能力来应对 AI 的未来,而不是仅仅参与 AI 技术的竞赛。

  • 愿景: 他希望建立一个类似《星际迷航》中的“星际舰队学院”的精英机构,专注于前沿技术的教育,培养能够驾驭未来科技的人才。
  • AI 辅导尚未成熟: 他认为,当前 AI 辅导的水平远未达到一个优秀人类导师的程度。一个好的导师能够精准评估学生的知识水平,并提供恰到好处的挑战。
  • 搭建“知识的阶梯”: 教育的核心是构建通往知识的“阶梯”。他通过创建 microgradnanochat 等项目,将复杂的技术核心简化为易于理解的模块,让学习者可以平稳地向上攀登。
  • 后 AGI 时代的教育: 在一个所有工作都可能被自动化的未来,教育将变得像去健身房一样。人们学习不再仅仅是为了工作,而是为了自我完善、享受智力活动的乐趣,并保持自身的“超人”状态。