AI 智能体真能胜任职场吗？一项新基准测试让人打起了问号。

尽管有预测称人工智能（AI）将取代白领知识工作，但一项名为 APEX-Agents 的新基准测试显示，当前的主流 AI 模型在处理法律、投资银行和咨询等领域的真实专业任务时表现不佳，正确率仅为 25% 左右。研究发现，AI 的主要弱点在于 跨多个信息平台进行整合与推理的能力不足。尽管如此，AI 技术仍在快速进步，未来有望在这些高价值工作中扮演更重要的角色。

AI 替代知识工作的谜团

近两年前，微软 CEO 萨提亚·纳德拉曾预测 AI 将取代知识型工作。然而，尽管基础模型取得了巨大进步，但对大多数白领工作的影响却微乎其微。这已成为 AI 领域最大的谜团之一，而来自训练数据公司 Mercor 的一项新研究为我们提供了答案。

APEX-Agents：一项严峻的现实考验

这项新研究通过一个名为 APEX-Agents 的基准测试，评估了顶尖 AI 模型在处理咨询、投行和法律领域的实际工作任务时的表现。结果令人失望：

面对来自真实专业人士提出的问题，即使是最好的模型，正确率也未能超过 25%。
在绝大多数情况下，模型返回的是错误答案或根本没有答案。

研究人员指出，AI 最大的绊脚石是 跨多个领域追踪信息，而这正是人类知识工作的核心部分。

“在现实生活中，你需要在 Slack、Google Drive 和所有其他工具之间进行操作。我们工作的方式不是由某个人在同一个地方提供所有背景信息。”

对于许多 AI 智能体模型来说，这种跨领域推理的能力仍然非常不稳定。

任务的复杂性

测试中的场景均来自真实专业人士，他们不仅设计了问题，还设定了成功的标准。这些任务的复杂性极高，例如，一个法律问题要求模型根据公司内部政策和相关的欧盟隐私法（如 GDPR 第 49 条）来判断一次数据导出是否合规。

要正确回答这类问题，需要进行深入的评估，这甚至可能难住知识渊博的人类专家。如果一个大语言模型能够可靠地回答这些问题，它将有能力有效地取代许多现有的专业人士。

各大模型的具体表现

虽然没有一个模型准备好接任投资银行家，但部分模型的表现相对更优。

Gemini 3 Flash: 表现最好，一次性准确率为 24%。
GPT-5.2: 紧随其后，准确率为 23%。
Opus 4.5, Gemini 3 Pro, 和 GPT-5: 得分均在 18% 左右。

未来展望：从不及格的实习生到得力助手

尽管目前的成绩不尽人意，但 AI 领域有着快速突破挑战性基准的历史。研究人员对未来几个月的发展充满期待。

“它的进步真的很快。现在可以说，它就像一个正确率为 25% 的实习生，但去年，这个实习生的正确率只有 5% 或 10%。年复一年的这种进步可以很快产生巨大的影响。”