样本效率黑洞

人工智能近期的进步主要源于更多、更好的数据，而非学习效率的提升。当前模型在语言、机器人和驾驶等任务上的样本效率远低于人类，单靠扩大模型规模难以弥补这一差距。尽管对于自动化常见的白领工作而言，这种低效率或许可以被海量应用摊薄成本，但关键问题在于，缺乏人类级别样本效率的 AI 是否能继续推动自身研究的进步，并解决复杂的、超出其训练数据范围的任务。

数据：AI进步的真正引擎

当前 AI 的能力提升，主要不是因为算法在样本效率（即学习所需的数据量）上取得了突破，而是我们极大地扩展和优化了训练数据的质量与范围。

强化学习 (RL) 的本质： RL 可以被看作一种合成数据生成方法。它通过大量计算来寻找“好的”数据，然后训练模型来复现这些正确的执行路径。
对人类专家数据的依赖： 这个过程需要海量的、针对特定领域的人类专家数据作为基础。例如，需要法律专家编写模拟的并购文件，或管理顾问撰写市场研究模板。
数据的规模与特异性： 每一项技能的训练都可能需要数百名人类专家生成示例、编写评估标准并解释其思考过程。这催生了年收入数十亿美元的数据标注产业。

我们正在构建一个弗兰肯斯坦式的怪物，由十亿个精心构建的案例嫁接而成。

开源模型之所以能快速追赶上最先进的闭源模型，也证明了数据是进步的真正驱动力。数据可以从公开的 API 中轻易“蒸馏”出来，而模型架构或训练技巧等核心技术若真是关键，追赶的难度会大得多。

人类与AI的样本效率鸿沟

将 AI 模型所需的数据量与人类一生接触的数据量进行对比，可以直观地看到两者在学习效率上的巨大差异。

语言学习： 一个普通人从出生到成年大约接触 2 亿个语言符号（token）。而前沿模型则在 10 万亿到 100 万亿个 token 的数据上进行训练，差异接近一百万倍。
机器人操作： 人类可以在几小时内学会远程操作一个机器人手臂。而 AI 即使拥有数百万小时的演示数据，也难以执行复杂的、开放式的任务，这也是机器人产业未能全面爆发的原因。
驾驶： 一个青少年大约需要 20 小时的练习就能学会开车。相比之下，自动驾驶模型需要的数据量要高出三到四个数量级。

对常见反驳的回应

对于上述比较，存在一些常见的反驳观点，但它们并不能完全解释这种效率差距。

“进化是人类的预训练”：
- 反驳： 人类基因组只有大约 3GB，不足以存储前沿模型那样的海量参数。进化更像是找到了正确的超参数和损失函数，而参数训练仍然在个体的生命周期内完成。
“人类接触了海量的多模态感官数据”：
- 反驳： 失去视觉或听觉的人虽然缺少了相应的感觉能力，但仍然拥有与常人无异的通用智能。这表明额外的感官数据并非人类智慧的关键。
“扩大模型规模能提升样本效率”：
- 反驳： 根据目前的缩放定律 (Scaling Laws)，即使将模型参数增加到无穷大，其所需的数据量也只能减少约 10 倍。这远远无法弥补与人类之间成千上万倍的效率差距，暗示了人类与当前 AI 模型遵循着完全不同的缩放曲线。

样本效率真的重要吗？

既然 AI 在很多任务上已经表现出色，那么这种低下的样本效率是否还构成问题？

答案取决于目标。对于自动化白领工作和自动化 AI 研究这两个核心目标，情况有所不同。

对于自动化白领工作： 核心逻辑是，大部分常见的办公任务（如软件工程师、分析师的工作）可以通过 SFT 和 RL 被纳入训练数据中。虽然训练 AI 的效率远低于训练人类，但 AI 的学习成果可以被复制并摊薄到数十亿次使用中，使得这种低效率在商业上变得可以接受。
真正的挑战： 挑战在于那些需要处理“分布外”问题的职位，这些问题无法通过提前训练来解决。例如，软件工程中需要大量创造性解决问题的部分。

最终，AI 实验室的计划是先自动化 AI 研究，然后让超级 AI 来解决样本效率这个难题。因此，核心问题变成了：一个本身不具备人类级别样本效率的 AI，是否有能力解决通往类人智能的最后那些研究难题？