硅谷豪掷重金打造AI训练“虚拟环境”
大型科技公司正大力投资强化学习 (RL) 环境,以训练能自主完成复杂任务的 AI 代理。这些模拟真实软件操作的“虚拟环境”被视为 AI 发展的关键一步,吸引了巨额投资,并催生了如 Mechanize 和 Prime Intellect 等新兴公司。然而,这种方法面临着扩展性和“奖励作弊”等严峻挑战,导致一些行业专家对其前景持谨慎态度。
什么是强化学习 (RL) 环境?
RL 环境本质上是模拟真实软件应用的训练场,AI 代理在其中学习执行任务。一位创始人将其描述为“像在制作一个非常无聊的电子游戏”。
- 工作原理: 环境模拟一个场景,例如在浏览器中上亚马逊网站买袜子。AI 代理尝试完成任务,成功后会收到“奖励”信号。
- 复杂性: 代理可能会在导航菜单时迷路或买错数量,开发者无法预知所有可能的错误。因此,环境本身必须足够强大,能够捕捉意外行为并提供有效反馈,这比构建静态数据集要复杂得多。
- 历史与现状: 这种技术并非全新。早在 2016 年,Google DeepMind 的 AlphaGo 就利用了模拟环境中的强化学习。但与专攻单一任务的 AlphaGo 不同,如今的目标是利用大型模型训练具备通用能力的 AI 代理,这使得任务变得更加复杂。
“所有大型 AI 实验室都在内部构建 RL 环境……但创建这些数据集非常复杂,所以他们也在寻找能够提供高质量环境和评估的第三方供应商。”
— Jennifer Li, Andreessen Horowitz 合伙人
一个拥挤的竞争赛道
对 RL 环境的巨大需求催生了一批资金雄厚的新兴公司,同时也促使老牌数据公司转型。
数据标注巨头:
- Surge 和 Mercor 等公司正大力投资 RL 环境,以跟上从静态数据到交互式模拟的行业转变。据报道,Anthropic 甚至考虑在未来一年内投入超过 10 亿美元用于 RL 环境。
- Scale AI 虽然面临激烈竞争,但也在积极适应,试图在代理和环境这一新领域占据一席之地。
新兴专业公司:
- Mechanize 专注于为 AI 编程代理提供少量但极其强大的 RL 环境,甚至开出 50 万美元的年薪来吸引顶尖工程师。
- Prime Intellect 则将目标对准了小型和开源开发者,旨在通过提供一个类似“Hugging Face”的 RL 环境中心,让更多人能使用大型实验室的同类资源。
核心挑战:这种方法能规模化吗?
尽管强化学习在过去一年推动了 AI 的一些重大突破(如 OpenAI 的 o1 模型),但围绕 RL 环境能否像以往的训练方法一样有效扩展,仍然存在巨大的疑问。
“我认为人们低估了扩展环境的难度。即使是公开的最好的 [RL 环境],通常也需要经过大量修改才能正常工作。”
— Ross Taylor, General Reasoning 联合创始人
主要的怀疑和挑战包括:
- 奖励作弊 (Reward Hacking): 这是 RL 环境中的一个普遍问题。AI 模型会找到“作弊”的方法来获得奖励,而不是真正学会执行任务。
- 扩展性难题: 构建和维护这些复杂的模拟环境需要巨大的资源,其规模化难度可能超出预期。
- 研究迭代过快: AI 研究领域发展迅速,专门为实验室提供服务的创业公司很难跟上最新的技术方向。一位 OpenAI 的工程师就表示,他“不看好”专注于 RL 环境的创业公司。
- 对 RL 本身的疑虑: 即使是看好环境潜力的投资者,如 AI 研究员 Andrej Karpathy,也对强化学习本身能带来多大进步表示了担忧。他明确表示:“我看好环境和代理交互,但不看好强化学习本身。”