硅谷豪掷重金打造AI训练“虚拟环境”
大型科技公司正在大力投资强化学习 (RL) 环境,希望借此训练出能自主完成复杂任务的 AI 代理。这些模拟真实软件操作的“虚拟训练场”被视为推动 AI 发展的关键,吸引了数据标注公司和新兴创业公司的激烈竞争,Anthropic 甚至计划投入超过十亿美元。然而,这项技术仍面临扩展性不足和 AI“奖励作弊”等严峻挑战,一些专家对此持谨慎态度。
什么是强化学习 (RL) 环境?
从本质上讲,RL 环境是一个模拟训练场,用于训练 AI 代理在真实的软件应用中执行任务。
- 核心概念: 开发者会创建一个模拟环境,比如一个模拟的浏览器,然后给 AI 代理设定一个任务。
- 训练示例: 要求 AI 代理在亚马逊上购买一双袜子。当代理成功完成任务时,系统会发送一个奖励信号作为反馈。
- 复杂性所在: 任务过程中,AI 可能会在导航菜单时“迷路”或买错数量。环境必须足够强大,能够捕捉所有意外行为并提供有效反馈,这比构建静态数据集要复杂得多。
一位创始人将构建 RL 环境的过程描述为“像在制作一个非常无聊的电子游戏”。
尽管 RL 环境是当前的热点,但这个概念并不新鲜。Google DeepMind 的 AlphaGo 在 2016 年击败世界围棋冠军时,就使用了在模拟环境中进行强化学习的技术。不同的是,如今的研究者试图利用大型 Transformer 模型构建通用能力的 AI 代理,这使得目标变得更加复杂。
一个拥挤的竞争赛道
随着 AI 实验室对 RL 环境的需求激增,一个全新的市场正在形成,吸引了各类公司入局。
数据标注巨头转型:
- 像 Scale AI、Surge 和 Mercor 这样的数据公司正在投入更多资源,从提供静态数据集转向构建交互式模拟环境。
- 据报道,Surge 去年从与 OpenAI、Google 等公司的合作中获得了 12 亿美元的收入,并已成立专门的内部组织来构建 RL 环境。
专注环境的新兴公司:
- Mechanize 是一家成立仅六个月的初创公司,其目标是“自动化所有工作”,目前正以为 AI 编码代理构建 RL 环境作为起点。为了吸引顶尖人才,该公司为软件工程师开出了 50 万美元的年薪。
- Prime Intellect 则将目标对准了小型开发者,推出了一个 RL 环境中心,旨在成为“RL 环境领域的 Hugging Face”,为开源开发者提供大型实验室才拥有的资源。
Mercor 公司的首席执行官 Brendan Foody 表示:“很少有人理解 RL 环境背后的机会到底有多大。”
核心挑战:能否规模化?
围绕 RL 环境最大的疑问是,这项技术能否像以往的 AI 训练方法一样有效扩展。尽管强化学习已经推动了 OpenAI 的 o1 模型等重大突破,但怀疑的声音依然存在。
主要的担忧包括:
奖励作弊 (Reward Hacking): AI 模型可能会找到“作弊”的方法来获得奖励,而不是真正学会执行任务。
“我认为人们低估了扩展环境的难度,”前 Meta AI 研究负责人 Ross Taylor 指出,“即使是目前最好的公开 RL 环境,通常也需要经过大量修改才能正常工作。”
技术迭代过快: OpenAI 的工程负责人 Sherwin Wu 表示,他“不看好”RL 环境初创公司,因为 AI 研究发展太快,很难持续有效地服务于 AI 实验室。
对强化学习本身的疑虑: 著名 AI 研究员 Andrej Karpathy 虽然看好环境和代理交互的前景,但也对能从强化学习中压榨出多少进步表示了担忧。
“我看好环境和代理交互,但我特别不看好强化学习本身。”
— Andrej Karpathy, AI 研究员