Fara-7B:高效的电脑操作智能体模型
Fara-7B 是微软推出的一款仅有 70 亿参数的小型语言模型,专为高效操作电脑而设计。它通过视觉感知网页并直接模拟人类的鼠标和键盘操作来完成复杂的网络任务,如信息搜索、表单填写和在线购物。由于其紧凑的体积,Fara-7B 支持在个人设备上本地部署,这不仅降低了延迟,还保障了用户数据的隐私。在多项基准测试中,它的表现优于同类甚至更大规模的模型。
Fara-7B 的独特之处
与传统的生成文本的聊天模型不同,Fara-7B 通过直接操作电脑界面来为用户执行多步骤任务。
- 视觉驱动操作:它通过“看”网页来决定下一步行动,直接预测点击、滚动和打字的坐标位置。
- 模拟人类交互:它使用与人类相同的输入方式(视觉、键盘、鼠标),无需依赖网站的底层代码或辅助功能。
- 保障隐私与效率:模型体积小,支持在本地设备上运行。这意味着您的数据不必发送到云端,从而提高了隐私和响应速度。
- 任务效率高:完成一项任务平均仅需约 16 个步骤,远少于同类模型所需的约 41 个步骤。
Fara-7B 的训练基于一个包含 14.5 万个多样化任务轨迹的合成数据集,使其能够应对各种网站、任务类型和难度级别。
核心功能
Fara-7B 可以自动执行各种日常网页任务,包括:
- 信息检索:搜索信息并总结结果。
- 账户管理:自动填写表单和管理在线账户。
- 在线预订:预订旅行、电影票和餐厅。
- 购物比价:在不同零售商之间购物和比较价格。
- 信息查找:搜索招聘信息和房地产列表。
卓越的性能表现
在一系列网页代理基准测试中,Fara-7B 取得了顶尖的成绩,其性能不仅超过了同等规模的模型,甚至能与一些更大的系统相媲美。
- 在 WebVoyager 和 WebTailBench 等多个基准测试中,Fara-7B 的成功率均领先于其他专门为电脑操作设计的模型。
- 例如,在衡量真实世界任务的新基准 WebTailBench 中,Fara-7B 在所有 11 个任务类别中均表现最佳。
WebTailBench:一个更真实的测试标准
为了更准确地评估模型的实际能力,微软发布了一个名为 WebTailBench 的新评测基准。
- 它包含了 609 个任务,覆盖了 11 种在现有基准中被忽视的真实世界任务类型。
- 任务范围从单一网站的简单操作(如购物、订票)到更复杂的跨网站、多步骤任务(如购物清单和比价购物)。
- 在这一更贴近现实的测试中,Fara-7B 展现了其作为电脑操作代理的领先地位。
如何开始使用
用户可以通过两种主要方式部署和使用 Fara-7B:
- Azure Foundry 托管 (推荐):这是最简单的方式,无需下载模型或拥有 GPU 硬件。用户只需获取端点 URL 和 API 密钥即可开始使用。
- 使用 VLLM 自行托管:如果用户拥有带足够显存的 GPU 资源,也可以在本地环境中自行托管模型,实现完全的本地化运行。
确保评估结果的可靠性
在动态变化的真实网站上进行测试充满挑战。为确保评估结果的可靠性和可复现性,该项目采取了多种措施:
- 稳定的浏览器环境:通过集成 BrowserBase 来管理浏览器会话。
- 更新过时任务:对基准测试中因时间变化而无法完成的任务进行更新。
- 强大的错误处理:当出现连接中断或页面超时等浏览器错误时,系统会自动重试任务。
- 设定步骤上限:为每个任务设置 100 个动作的上限,以避免无限循环。