OpenAI称GPT-5在众多岗位上媲美人类
OpenAI 发布了一项名为 GDPval 的新基准测试,旨在衡量其 AI 模型在具有经济价值的工作中与人类专业人士的表现。初步结果显示,像 GPT-5 和 Claude Opus 4.1 这样的先进模型,在某些特定任务上已经接近行业专家的水平。然而,目前的测试范围非常有限,OpenAI 承认需要开发更全面的评估方法,才能真正衡量 AI 在真实工作流程中的能力。
什么是 GDPval 基准测试?
GDPval 是 OpenAI 用于评估其系统在经济价值工作中表现的一种新方法,是公司实现通用人工智能(AGI)使命的一部分。该测试旨在回答一个核心问题:AI 在多大程度上能够胜任人类的工作?
- 覆盖范围广: 测试基于对美国 GDP 贡献最大的九个行业,包括医疗、金融、制造业和政府等。
- 职业多样化: 涵盖了这些行业中的 44 种职业,从软件工程师到护士,再到记者。
测试如何进行?
GDPval-v0 是该测试的第一个版本,其工作方式相对简单。
- 任务分配: AI 模型和人类专业人士被要求完成相同的任务,例如为投资银行家撰写一份关于“最后一英里”配送行业的竞争格局报告。
- 专家评审: 经验丰富的专业人士对 AI 生成的报告和人类撰写的报告进行盲评,并选出更好的一份。
- 计算胜率: OpenAI 最终计算出 AI 模型在所有 44 种职业中相对于人类报告的平均“胜率”(包括优于或持平)。
主要测试结果
结果显示,最新模型的表现取得了显著进步,但尚未全面超越人类专家。
- GPT-5-high (一个增强版模型) 在 40.6% 的评估中被认为优于或等同于行业专家。
- Anthropic 的 Claude Opus 4.1 在 49% 的任务中表现优于或等同于专家。OpenAI 推测,其高分可能部分得益于其生成美观图表的能力,而不仅仅是纯粹的性能。
- 相比之下,大约 15 个月前发布的 GPT-4o 模型得分仅为 13.7%,这表明 AI 的能力正在快速迭代。
局限性与未来展望
OpenAI 坦诚,目前的测试存在明显局限。
值得注意的是,大多数专业人士的工作远不止向老板提交研究报告,而这正是 GDPval-v0 目前测试的全部内容。
公司承认这一点,并计划在未来创建更强大的测试,以评估 AI 在更广泛的行业和更复杂的交互式工作流程中的能力。只有更全面的测试才能最终证明 AI 是否能够超越人类。
这对我们的工作意味着什么?
尽管 AI 不会立即取代人类,但这些结果预示着工作方式的转变。
OpenAI 首席经济学家 Aaron Chatterji 表示:“由于模型在其中一些事情上做得越来越好,从事这些工作的人现在可以利用模型,将部分工作分流出去,从而去做可能价值更高的事情。”
这意味着 AI 可以成为一个强大的工具,帮助专业人士将时间投入到更具创造性和战略性的任务上。
为何需要新的评估标准?
长期以来,硅谷使用诸如 AIME 2025(数学竞赛题)和 GPQA Diamond(博士级科学问题)等基准来衡量 AI 的进展。然而,许多模型在这些测试上已接近满分,AI 研究人员普遍认为需要更好的方法来衡量 AI 在 真实世界任务 中的熟练程度。像 GDPval 这样的基准测试正是在这个背景下变得越来越重要。