FDM-1是一个为计算机操作设计的新型基础模型,它通过直接处理视频而非截图来学习。该模型在一个包含1100万小时屏幕录像的庞大数据集上进行训练,这些数据通过一个名为“逆动力学模型”(IDM)的系统自动标注了用户操作。其核心创新在于一个高效的视频编码器,能将近2小时的视频压缩成 manageable 的数据量,从而实现对长时间任务的理解。这使得FDM-1在计算机辅助设计(CAD)、金融和工程等复杂领域展现出巨大潜力,并将构建通用计算机代理的瓶颈从数据获取转向了计算资源。
传统方法的局限
过去构建计算机代理的方法存在几个核心问题,导致其能力受限:
- 依赖截图: 模型基于静态截图进行训练,无法理解需要连续视频上下文的动态任务,如3D建模或玩游戏。
- 上下文短: 现有代理只能处理几秒钟的上下文,无法完成需要长时间操作的复杂任务。
- 数据集小: 依赖人工标注,成本高昂,导致最大的公开数据集也不足20小时,与互联网上海量的视频内容相比微不足道。
- 扩展性差: 上述限制使得模型难以扩展,无法成长为能胜任复杂工作的“智能体”。
构建一个通用的计算机代理需要一个互联网规模的视频语料库,就像构建 GPT-3 需要一个互联网规模的文本语料库一样。FDM-1是第一个能够在这种规模上进行训练的模型。
FDM-1 的三阶段训练法
为了利用海量视频数据,FDM-1的训练过程分为三个关键阶段:
- 训练逆动力学模型 (IDM): 首先,在一个约4万小时、由人工标注的屏幕录像数据集上训练一个 IDM。这个模型的任务是“观察”视频中的状态变化(例如屏幕上出现一个字母“K”),并推断出导致这一变化的用户操作(按下了“K”键)。
- 大规模自动标注: 使用训练好的 IDM,为庞大的1100万小时视频库自动生成操作标签(如按键、鼠标移动)。这种方法使得数据标注的规模和效率远超人工。
- 训练前向动力学模型 (FDM): 最后,使用这些自动标注好的海量视频数据来训练核心的 FDM。FDM 的任务是根据之前的视频帧和用户操作,预测下一步最可能的操作。
关键技术创新
FDM-1 的实现依赖于几个核心的技术突破,特别是其视频处理和数据标注方法。
高效的视频编码器
屏幕录像的信息密度是动态变化的,从空白屏幕上的鼠标移动到滚动浏览密集文本,信息量差异巨大。传统的视频编码器难以在这种情况下兼顾压缩率和信息保真度。
- 核心优势: FDM-1 的视频编码器采用无监督的训练方式,学会了如何高效压缩视频,同时保留关键信息。
- 惊人效率: 它能将近 2小时 的视频压缩到仅 100万个令牌 (token),效率比之前的顶尖技术高出约50倍,比 OpenAI 的编码器高出约100倍。
- 解锁长时任务: 这种超高的压缩率使得模型能够处理长达数小时的上下文,这是完成 CAD 设计等复杂工作流的前提。
规模化的自动标注:逆动力学模型 (IDM)
为了给海量视频打上标签,团队开发了一个 IDM。
标注视频本质上是一个非因果性的任务——在你看到粘贴(Cmd+V)的结果之前,你无法确定之前发生了复制(Cmd+C)操作。
- 工作原理: IDM 采用一种“掩码扩散”架构,能同时观察整个视频片段,并推断出其中被“遮盖”住的用户操作。它会先预测最高概率的简单操作,然后逐步解决更模糊、更复杂的动作。
- 效果显著: 实验证明,通过 IDM 自动标注的数据训练出的模型,其性能与使用 昂贵的人工标注数据 训练出的模型不相上下,甚至在某些方面更优。
预测未来:前向动力学模型 (FDM)
FDM 是最终执行任务的模型,它直接在视频和动作数据上进行训练,不依赖复杂的文本推理链(Chain-of-Thought)。
- 动作的表示: FDM 将用户的操作分解为离散的单元:
- 按键和滚动: 每个事件被单独标记。
- 鼠标移动: 这是一个难点。为了有效处理,模型采用了 指数分箱(exponential binning) 技术,将微小的、频繁的移动划分到更精细的类别中,而将大幅度的、不常见的移动划分到较粗的类别中,从而高效地对鼠标轨迹进行建模。
评估与未来展望
为了有效评估模型,团队搭建了一个庞大的测试系统,能够并行控制数万个虚拟机,模拟真实操作环境并进行大规模测试。
- 性能验证: 在内部评估中,使用 IDM 自动标注数据训练的模型,在通用鼠标操作和界面交互等任务上,表现优于使用人工标注数据的模型。
- 泛化能力: FDM-1 在只经过不到1小时的驾驶数据微调后,就能在一个网页界面中操作汽车在旧金山的街区转弯,展示了其强大的泛化能力和学习效率。
FDM-1 的出现成功地将构建通用计算机代理的瓶颈从 数据限制 转移到了 计算限制。这意味着,只要有足够的计算资源,我们距离实现能够自主、熟练使用计算机的通用智能代理又近了一步。