首个通用计算机行为模型来了！

FDM-1是一个为计算机操作设计的新型基础模型，它通过直接处理视频而非截图来学习。该模型在一个包含1100万小时屏幕录像的庞大数据集上进行训练，这些数据通过一个名为“逆动力学模型”（IDM）的系统自动标注了用户操作。其核心创新在于一个高效的视频编码器，能将近2小时的视频压缩成 manageable 的数据量，从而实现对长时间任务的理解。这使得FDM-1在计算机辅助设计（CAD）、金融和工程等复杂领域展现出巨大潜力，并将构建通用计算机代理的瓶颈从数据获取转向了计算资源。

传统方法的局限

过去构建计算机代理的方法存在几个核心问题，导致其能力受限：

依赖截图： 模型基于静态截图进行训练，无法理解需要连续视频上下文的动态任务，如3D建模或玩游戏。
上下文短： 现有代理只能处理几秒钟的上下文，无法完成需要长时间操作的复杂任务。
数据集小： 依赖人工标注，成本高昂，导致最大的公开数据集也不足20小时，与互联网上海量的视频内容相比微不足道。
扩展性差： 上述限制使得模型难以扩展，无法成长为能胜任复杂工作的“智能体”。

构建一个通用的计算机代理需要一个互联网规模的视频语料库，就像构建 GPT-3 需要一个互联网规模的文本语料库一样。FDM-1是第一个能够在这种规模上进行训练的模型。

FDM-1 的三阶段训练法

为了利用海量视频数据，FDM-1的训练过程分为三个关键阶段：

训练逆动力学模型 (IDM)： 首先，在一个约4万小时、由人工标注的屏幕录像数据集上训练一个 IDM。这个模型的任务是“观察”视频中的状态变化（例如屏幕上出现一个字母“K”），并推断出导致这一变化的用户操作（按下了“K”键）。
大规模自动标注： 使用训练好的 IDM，为庞大的1100万小时视频库自动生成操作标签（如按键、鼠标移动）。这种方法使得数据标注的规模和效率远超人工。
训练前向动力学模型 (FDM)： 最后，使用这些自动标注好的海量视频数据来训练核心的 FDM。FDM 的任务是根据之前的视频帧和用户操作，预测下一步最可能的操作。

关键技术创新

FDM-1 的实现依赖于几个核心的技术突破，特别是其视频处理和数据标注方法。

高效的视频编码器

屏幕录像的信息密度是动态变化的，从空白屏幕上的鼠标移动到滚动浏览密集文本，信息量差异巨大。传统的视频编码器难以在这种情况下兼顾压缩率和信息保真度。

核心优势： FDM-1 的视频编码器采用无监督的训练方式，学会了如何高效压缩视频，同时保留关键信息。
惊人效率： 它能将近 2小时 的视频压缩到仅 100万个令牌 (token)，效率比之前的顶尖技术高出约50倍，比 OpenAI 的编码器高出约100倍。
解锁长时任务： 这种超高的压缩率使得模型能够处理长达数小时的上下文，这是完成 CAD 设计等复杂工作流的前提。

规模化的自动标注：逆动力学模型 (IDM)

为了给海量视频打上标签，团队开发了一个 IDM。

标注视频本质上是一个非因果性的任务——在你看到粘贴（Cmd+V）的结果之前，你无法确定之前发生了复制（Cmd+C）操作。

工作原理： IDM 采用一种“掩码扩散”架构，能同时观察整个视频片段，并推断出其中被“遮盖”住的用户操作。它会先预测最高概率的简单操作，然后逐步解决更模糊、更复杂的动作。
效果显著： 实验证明，通过 IDM 自动标注的数据训练出的模型，其性能与使用 昂贵的人工标注数据 训练出的模型不相上下，甚至在某些方面更优。

预测未来：前向动力学模型 (FDM)

FDM 是最终执行任务的模型，它直接在视频和动作数据上进行训练，不依赖复杂的文本推理链（Chain-of-Thought）。

动作的表示： FDM 将用户的操作分解为离散的单元：
- 按键和滚动： 每个事件被单独标记。
- 鼠标移动： 这是一个难点。为了有效处理，模型采用了 指数分箱（exponential binning） 技术，将微小的、频繁的移动划分到更精细的类别中，而将大幅度的、不常见的移动划分到较粗的类别中，从而高效地对鼠标轨迹进行建模。

评估与未来展望

为了有效评估模型，团队搭建了一个庞大的测试系统，能够并行控制数万个虚拟机，模拟真实操作环境并进行大规模测试。

性能验证： 在内部评估中，使用 IDM 自动标注数据训练的模型，在通用鼠标操作和界面交互等任务上，表现优于使用人工标注数据的模型。
泛化能力： FDM-1 在只经过不到1小时的驾驶数据微调后，就能在一个网页界面中操作汽车在旧金山的街区转弯，展示了其强大的泛化能力和学习效率。

FDM-1 的出现成功地将构建通用计算机代理的瓶颈从 数据限制 转移到了 计算限制。这意味着，只要有足够的计算资源，我们距离实现能够自主、熟练使用计算机的通用智能代理又近了一步。