Synth Daily

AI 智能体真能胜任职场吗?一项新基准测试让人打起了问号。

尽管有预测称人工智能(AI)将取代白领知识工作,但一项名为 APEX-Agents 的新基准测试显示,当前的主流 AI 模型在处理法律、投资银行和咨询等领域的真实专业任务时表现不佳,正确率仅为 25% 左右。研究发现,AI 的主要弱点在于 跨多个信息平台进行整合与推理的能力不足。尽管如此,AI 技术仍在快速进步,未来有望在这些高价值工作中扮演更重要的角色。

AI 替代知识工作的谜团

近两年前,微软 CEO 萨提亚·纳德拉曾预测 AI 将取代知识型工作。然而,尽管基础模型取得了巨大进步,但对大多数白领工作的影响却微乎其微。这已成为 AI 领域最大的谜团之一,而来自训练数据公司 Mercor 的一项新研究为我们提供了答案。

APEX-Agents:一项严峻的现实考验

这项新研究通过一个名为 APEX-Agents 的基准测试,评估了顶尖 AI 模型在处理咨询、投行和法律领域的实际工作任务时的表现。结果令人失望:

  • 面对来自真实专业人士提出的问题,即使是最好的模型,正确率也未能超过 25%
  • 在绝大多数情况下,模型返回的是错误答案或根本没有答案。

研究人员指出,AI 最大的绊脚石是 跨多个领域追踪信息,而这正是人类知识工作的核心部分。

“在现实生活中,你需要在 Slack、Google Drive 和所有其他工具之间进行操作。我们工作的方式不是由某个人在同一个地方提供所有背景信息。”

对于许多 AI 智能体模型来说,这种跨领域推理的能力仍然非常不稳定。

任务的复杂性

测试中的场景均来自真实专业人士,他们不仅设计了问题,还设定了成功的标准。这些任务的复杂性极高,例如,一个法律问题要求模型根据公司内部政策和相关的欧盟隐私法(如 GDPR 第 49 条)来判断一次数据导出是否合规。

要正确回答这类问题,需要进行深入的评估,这甚至可能难住知识渊博的人类专家。如果一个大语言模型能够可靠地回答这些问题,它将有能力有效地取代许多现有的专业人士。

各大模型的具体表现

虽然没有一个模型准备好接任投资银行家,但部分模型的表现相对更优。

  • Gemini 3 Flash: 表现最好,一次性准确率为 24%
  • GPT-5.2: 紧随其后,准确率为 23%
  • Opus 4.5, Gemini 3 Pro, 和 GPT-5: 得分均在 18% 左右。

未来展望:从不及格的实习生到得力助手

尽管目前的成绩不尽人意,但 AI 领域有着快速突破挑战性基准的历史。研究人员对未来几个月的发展充满期待。

“它的进步真的很快。现在可以说,它就像一个正确率为 25% 的实习生,但去年,这个实习生的正确率只有 5% 或 10%。年复一年的这种进步可以很快产生巨大的影响。”