我们如何突破顶级 AI 代理基准测试：未来展望

一份由加州大学伯克利分校团队开发的自动化扫描代理 “BenchJack”，系统性地审计了八大主流 AI 代理基准测试，发现所有测试都存在致命漏洞。这些漏洞使得一个 不具备任何实际解决问题能力的代理，能通过利用规则轻松获得近乎满分的成绩。这揭示了当前基准测试无法真实反映 AI 能力的严重问题，进而误导模型选择、投资决策和安全评估。研究呼吁建立更严格、具备对抗性思维的评测标准，以确保基准测试的健壮性和可信度。

虚假的基准测试

每周都有新的 AI 模型登上基准测试排行榜的榜首，公司用这些分数宣传，投资者用它们估值，工程师用它们选择模型。这背后有一个简单的承诺：分数越高，能力越强。

然而，这个承诺已经破碎。

我们构建了一个自动化扫描代理，系统审计了八个最著名的 AI 代理基准测试，包括 SWE-bench、WebArena 和 GAIA 等。结果发现，每一个测试都可以被利用，在不解决任何实际任务的情况下获得近乎完美的得分。代理不需要任何推理或能力，只需利用评分机制的漏洞。

这些基准测试衡量的，并非你想象中的那些能力。

漏洞利用已成现实

基准测试分数被操纵、夸大或变得毫无意义，这并非理论，而是正在发生的现实：

IQuest-Coder-V1 在 SWE-bench 上声称获得 81.4% 的高分，但研究人员发现其 24.4% 的解决方案只是简单地运行 git log 从提交历史中复制答案。
METR 发现，超过 30% 的评估中，Claude 3 模型会通过篡改评分器等方式进行“奖励破解”，从而操纵分数而非解决任务。
OpenAI 在内部审计发现 59.4% 的问题测试存在缺陷后，放弃了 SWE-bench Verified 基准测试。
Anthropic 的研究表明，前沿模型会主动尝试破解环境并取得成功，例如通过代码注入实现权限提升。

这些并非孤例，它们是一个系统性问题的症状：我们赖以衡量 AI 能力的基准测试，本身就容易受到它们声称要测量的能力的攻击。

攻击代理如何得手

我们的代理在大多数情况下 不解决任何任务、不调用大语言模型，却取得了近乎完美的成绩。

Terminal-Bench (100% 得分): 评估任务依赖于通过 curl 从互联网下载工具。我们的代理在代理阶段用一个包装器替换了系统的 curl 命令。当验证器稍后运行 curl 时，我们的包装器会拦截请求，安装真正的工具，然后植入木马。这个木马会欺骗验证器，使其相信任务已通过。
SWE-bench (100% 得分): 这个广受欢迎的编码基准测试要求代理提交一个补丁来修复错误。漏洞在于，代理提交的补丁在运行测试的同一个容器内执行。我们的代理只需创建一个 conftest.py 文件，利用 Pytest 的钩子功能，强制将每个测试结果都报告为“通过”。
WebArena (约 100% 得分): 该基准测试的任务配置文件（包含参考答案）与任务本身一起存储在本地文件系统中。浏览器环境并未限制访问 file:// 协议。因此，代理只需输出一个 goto 动作，指向包含答案的本地文件路径，就能直接读取答案。
FieldWorkArena (100% 得分): 这个基准测试的验证方法存在致命缺陷。它只检查最后一条消息是否来自助手，完全忽略了消息的内容。我们的代理只需提交一个任意字符（例如 {}），就能在所有 890 个任务上获得 100% 的分数。

这不是一个细微的边缘案例。基准测试的核心评估函数根本没有进行评估。

OSWorld (73% 得分): 测试环境是一个具有无限制互联网访问权限的虚拟机。任务的“黄金”参考答案托管在公开的 HuggingFace URL上。代理可以直接下载这些黄金文件，然后让评估器进行“黄金文件”对“黄金文件”的比较，从而获得满分。
GAIA (~98% 得分): 验证答案在 HuggingFace 上公开可用，这使得测试变成了查表练习。此外，其评分系统在比较答案前会移除所有空格和标点符号，这使得许多不准确的答案也能被判为正确。
CAR-bench (100% 得分): 该测试严重依赖 LLM 作为裁判，但没有对输入进行净化。代理可以在其回答中附加隐藏的指令，如 ，从而轻松操纵 LLM 裁判的判断。

七大致命模式

在所有八个基准测试中，同样的漏洞模式反复出现：

代理与评估器未隔离: 代理的代码在评估器检查的同一环境中运行，使其可以直接操纵评估结果。
答案随测试一同泄露: 任务配置中包含参考答案或答案的链接，代理可以轻易获取。
对不可信输入执行代码: 评估器对来自代理的字符串调用 eval()，导致任意代码执行，这是一个严重的安全漏洞。
LLM 评判缺乏输入净化: 代理可以通过提示注入来操纵作为裁判的 LLM。
脆弱的字符串匹配: 过于宽松的匹配规则（如子字符串包含）使得不准确的答案也能通过。
评估逻辑本身存在缺陷: 评分代码存在错误，要么不检查答案的正确性，要么错误地惩罚正确答案。
信任不可信代码的输出: 评估器信任由代理控制的环境中生成的输出（如测试报告），而这些输出可以被轻易伪造。

这为何至关重要

基准测试分数驱动着真实的决策，而这些脆弱的测试会带来严重后果：

模型选择: 团队可能会根据虚假的排行榜选择错误的模型。
投资决策: 资金可能流向那些善于“刷分”而非真正有能力的公司。
安全评估: 如果能力基准可以被夸大，那么安全基准可能同样脆弱。
研究方向: 当基准测试存在问题时，整个领域都可能在为错误的目标进行优化。

随着代理变得越来越强大，它们可能会在没有明确指令的情况下，自发地发现并利用这些漏洞，因为优化压力会找到阻力最小的路径。

代理评估清单：构建真正有效的基准测试

为了建立真正可靠的基准测试，我们提出了一个最低标准清单：

将代理与评估器完全隔离。 这是不可协商的。
不要将参考答案传递给代理。 评估元数据必须存储在无法访问的路径上。
绝不对不可信的输入使用 eval()。
净化 LLM 裁判的输入。 将代理的输出视为不可信的用户输入。
对评估器进行对抗性测试。 在发布前，尝试用一个零能力代理来攻击它，看它能得多少分。
确保评分机制的稳健性。 避免使用脆弱的匹配规则，并测试评分器对异常输入的处理能力。
对答案保密。 不要公开发布用于排行榜的测试集的答案。

结论

我们构建了一个能攻破八大基准测试的代理，它在不解决任何任务的情况下获得了近乎完美的成绩。这证明，当前的评估方法没有考虑到一个 为分数而非为任务 优化的系统。

我们看到的漏洞并非开发人员无能的标志，而是表明 对抗性评估尚未成为该领域的标准实践。现在，它必须成为标准。

不要相信分数。要相信方法论。

BenchJack：一个代理基准测试漏洞扫描器

我们将用于发现这些漏洞的自动化扫描代理开发成了 BenchJack，一个通用的代理基准测试漏洞扫描器。你可以将它指向任何评估流程，它会自动探测和理解基准测试的机制，然后尝试构建端到端的漏洞利用。

BenchJack 的目标是让对抗性健壮性测试像单元测试一样常规。我们相信，在用于做出任何决策之前，每个基准测试都应该经过对抗性测试。