OpenAI称GPT-5在众多岗位上媲美人类

OpenAI 发布了一项名为 GDPval 的新基准测试，旨在衡量其 AI 模型在具有经济价值的工作中与人类专业人士的表现。初步结果显示，像 GPT-5 和 Claude Opus 4.1 这样的先进模型，在某些特定任务上已经接近行业专家的水平。然而，目前的测试范围非常有限，OpenAI 承认需要开发更全面的评估方法，才能真正衡量 AI 在真实工作流程中的能力。

什么是 GDPval 基准测试？

GDPval 是 OpenAI 用于评估其系统在经济价值工作中表现的一种新方法，是公司实现通用人工智能（AGI）使命的一部分。该测试旨在回答一个核心问题：AI 在多大程度上能够胜任人类的工作？

覆盖范围广： 测试基于对美国 GDP 贡献最大的九个行业，包括医疗、金融、制造业和政府等。
职业多样化： 涵盖了这些行业中的 44 种职业，从软件工程师到护士，再到记者。

测试如何进行？

GDPval-v0 是该测试的第一个版本，其工作方式相对简单。

任务分配： AI 模型和人类专业人士被要求完成相同的任务，例如为投资银行家撰写一份关于“最后一英里”配送行业的竞争格局报告。
专家评审： 经验丰富的专业人士对 AI 生成的报告和人类撰写的报告进行盲评，并选出更好的一份。
计算胜率： OpenAI 最终计算出 AI 模型在所有 44 种职业中相对于人类报告的平均“胜率”（包括优于或持平）。

主要测试结果

结果显示，最新模型的表现取得了显著进步，但尚未全面超越人类专家。

GPT-5-high (一个增强版模型) 在 40.6% 的评估中被认为优于或等同于行业专家。
Anthropic 的 Claude Opus 4.1 在 49% 的任务中表现优于或等同于专家。OpenAI 推测，其高分可能部分得益于其生成美观图表的能力，而不仅仅是纯粹的性能。
相比之下，大约 15 个月前发布的 GPT-4o 模型得分仅为 13.7%，这表明 AI 的能力正在快速迭代。

局限性与未来展望

OpenAI 坦诚，目前的测试存在明显局限。

值得注意的是，大多数专业人士的工作远不止向老板提交研究报告，而这正是 GDPval-v0 目前测试的全部内容。

公司承认这一点，并计划在未来创建更强大的测试，以评估 AI 在更广泛的行业和更复杂的交互式工作流程中的能力。只有更全面的测试才能最终证明 AI 是否能够超越人类。

这对我们的工作意味着什么？

尽管 AI 不会立即取代人类，但这些结果预示着工作方式的转变。

OpenAI 首席经济学家 Aaron Chatterji 表示：“由于模型在其中一些事情上做得越来越好，从事这些工作的人现在可以利用模型，将部分工作分流出去，从而去做可能价值更高的事情。”

这意味着 AI 可以成为一个强大的工具，帮助专业人士将时间投入到更具创造性和战略性的任务上。

为何需要新的评估标准？

长期以来，硅谷使用诸如 AIME 2025（数学竞赛题）和 GPQA Diamond（博士级科学问题）等基准来衡量 AI 的进展。然而，许多模型在这些测试上已接近满分，AI 研究人员普遍认为需要更好的方法来衡量 AI 在 真实世界任务 中的熟练程度。像 GDPval 这样的基准测试正是在这个背景下变得越来越重要。