AI 核心的数据黑洞

当前人工智能的进步主要依赖于海量的定制化人类专家数据、强化学习以及强大的算力，而非更高的学习效率。尽管 AI 在学习特定任务时所需的数据量远超人类，但由于这些知识可以被规模化复制和应用，这种低效率在商业上依然成立。对于企业而言，关键在于将常见工作任务纳入 AI 的训练范围，而不是完全模仿人类的学习方式。

AI 进步的真正驱动力

人工智能能力提升的核心并非学习效率（即样本效率）的提高，而是 数据分布的极大拓宽与改善。其主要进步方式是：

增加更多、更好的数据： 这是最根本的驱动力。
扩大算力投入： 用以处理和生成这些数据。
应用强化学习 (RL)： 可以将其视为一种合成数据的生成过程。通过投入大量算力，让模型在验证环境中进行海量尝试，从而筛选出“好”的数据，然后训练模型来预测这些正确的结果。

为了让这个过程奏效，模型必须预先接触过海量的 人类专家数据。这些数据为模型在特定领域的表现提供了基础的正确方向。

我们看到的 AI 能力像一个闪烁的星系，但在其中心，肉眼看不见的地方，有一个难以想象的、维系着所有星座的数据黑洞。

数据黑洞的真相：海量且高度定制

用于训练 AI 的人类专家数据不仅数量庞大，而且具有极高的任务特异性。

高度定制化： 数据需求非常具体。例如，需要有专门的文字专家将旧文档转为精美的 Word 文件，或法律专家撰写真实的并购尽职调查报告。每个技能都需要精心构建的范例。
惊人的数据量： 每一项技能背后，都对应着数百名人类专家生成范例、撰写规则和解释其思考过程。这形成了一个年收入达数十亿美元的庞大数据产业。
低效的学习过程： 人类可能练习一两次就能掌握一个知识点，而模型则需要对每个任务生成成百上千次的尝试。这好比一个由无数精心构建的范例缝合而成的“科学怪人”。

数据是进步的真正核心。这也是为什么开源模型能够相对容易地追赶前沿模型，因为数据可以从公开的 API 中被“蒸馏”和提取，而模型架构等微观优化则难以复制。

人类与 AI 的学习效率对比

从“样本效率”的角度看，人类学习所需的数据量远少于 AI。

语言学习： 一个人从出生到成年大约接触 2 亿 个词元。而前沿模型则在 数万亿 级别的词元上进行训练，差距接近 一百万倍。
机器人操作： 一个人几小时内就能学会遥控一个机器人手臂。而 AI 即使拥有数百万小时的演示数据，也难以执行复杂的开放式任务，这也是机器人产业未能全面爆发的原因。
驾驶： 一名青少年大约需要 20 小时 的练习就能学会开车。即使算上之前 16 年积累的物理直觉，也比自动驾驶模型所需的数据量少三到四个数量级。

关于效率对比的常见误解

对于上述对比，存在一些常见的反驳观点，但它们并不能完全解释这种巨大的效率差距。

“进化是人类的预训练”： 人类基因组约 3GB，远小于前沿模型数 TB 的参数量，不足以存储所谓的“预训练”知识。进化更像是为我们找到了正确的学习框架，而真正的学习依然在个体的一生中完成。
“多模态数据被忽略了”： 失去部分感官（如视觉或听觉）的人依然拥有完整的通用智能，这表明海量的感官数据并非智能形成的关键。
“更大的模型=更高的效率”： 根据现有的 扩展定律 (scaling laws)，即使无限增加模型参数，数据需求的减少也极其有限，远无法弥补与人类之间成千上万倍的效率鸿沟。这表明人类和当前 AI 模型遵循着 完全不同的学习曲线。

学习效率真的重要吗？

既然 AI 的学习如此低效，为什么它仍然有价值？

对于自动化白领工作而言，企业的目标并不是完全复制人类的学习能力。关键在于，软件工程师、分析师或会计师的许多 常见任务是可以被预测和归类的。通过强化学习和监督微调，可以将这些常见任务 “拉入”AI 的训练分布中。

低效但可行： 训练一个 AI 做某项任务的成本远高于训练一个人。但 AI 的优势在于，一旦学会，其能力可以被 无限复制和摊销 到数十亿次会话中。这种规模效应使得即使训练过程极其低效，商业上依然能获得巨大回报。
“分布外”的挑战： 当然，许多工作需要处理无法预先训练的“分布外”问题。对于这类工作，AI 目前还难以胜任。AI 公司的策略是先用 AI 来自动化 AI 研究本身，再利用更强大的 AI 来解决学习效率这个根本问题。