OpenAI 正通过外包人员收集其过往的真实工作文件,以此建立一个人类工作基准,用于评估和提升下一代 AI 模型的性能。此举旨在推动 AI 在具有经济价值的任务上超越人类,是其实现通用人工智能(AGI)目标的关键一步。然而,这种做法也引发了严重的法律和商业风险,尤其是在保护商业机密和个人信息方面,同时也揭示了一个价值数十亿美元的高质量 AI 训练数据产业。
目标:建立衡量 AI 的人类基准
OpenAI 的核心目标是建立一个人类工作表现的基准,以便将其 AI 模型与各行业的专业人士进行直接比较。他们认为,这是衡量其在实现通用人工智能(AGI)方面取得进展的关键指标。AGI 的定义是 AI 系统在大多数有经济价值的任务上超越人类。
“我们雇佣了来自不同职业的人,帮助收集基于他们全职工作中真实任务的模型,这样我们就可以衡量 AI 模型在这些任务上的表现。”
收集方式:索要真实的工作成果
OpenAI 要求承包商提供他们在当前或过去工作中完成的具体任务和成果。整个过程分为两个部分:
- 任务请求: 描述当时管理者或同事提出的具体工作要求。
- 任务交付物: 上传为响应请求而产出的实际工作文件,例如 Word 文档、PDF、PPT、Excel 表格或代码库。
为了确保数据的真实性,OpenAI 多次强调,所提供的范例应反映承包商 “真正在岗完成的工作”。一个示例任务是为一位高端客户规划为期 7 天的巴哈马游艇旅行,交付物就是一份真实的行程安排 PDF。
潜在风险:商业机密与法律责任
尽管 OpenAI 指示承包商在上传文件前删除所有个人信息、专有数据和公司机密,并提供了一个名为“Superstar Scrubbing”的工具来辅助操作,但这种做法依然存在巨大风险。
知识产权律师指出,AI 公司在很大程度上依赖承包商自行判断哪些信息属于机密。这种模式将 AI 公司置于极大的风险之中。
- 法律风险: AI 公司可能因接收机密信息而面临商业秘密侵占的指控。
- 个人风险: 提供工作文件的承包商,即使经过处理,也可能违反与前雇主签订的保密协议。
“AI 实验室非常信任它的承包商,让他们来决定什么是机密,什么不是……在我看来,AI 实验室正在将自己置于巨大的风险之中。”
背景:一个价值数十亿的数据产业
这种对高质量真实世界数据的需求,并不仅限于 OpenAI。像 Anthropic 和 Google 这样的公司也在通过雇佣大量专业人士来生成高质量训练数据,以开发能够实现企业工作自动化的 AI Agent。
随着模型能力的提升,AI 公司不再满足于普通数据,而是需要更专业的、由高技能人才产生的数据。这催生了一个利润丰厚的子行业,专门为 AI 实验室提供和管理数据承包商。像 Handshake AI 和 Surge 这样的数据公司因此获得了数十亿美元的估值,凸显了高质量数据在 AI 竞赛中的核心地位。