为什么衡量人工智能表现变得越来越难

评估人工智能（AI）的真实能力正变得愈发困难。METR 团队通过一个创新的基准来衡量 AI 在软件工程任务上的进步，该基准以人类程序员完成相同任务所需的时间作为度量单位。尽管数据显示 AI 能力呈指数级增长，但最新的 AI 模型（如 Claude Opus 4.6）已能完成测试中最难的部分，导致其能力上限难以确定，这表明现有基准正趋于“饱和”。这一现象并非孤例，传统的 MMLU 基准也因 AI 的进步而失效。虽然可以开发更难的测试，但这不仅成本高昂，更重要的是，这些结构化的测试越来越难以反映 AI 在处理现实世界中复杂、模糊且需要协作的真实任务时的表现。

一种衡量 AI 进步的新方法

METR（模型评估与威胁研究）团队发布了一张图表，直观地展示了 AI 模型在软件工程任务上能力的飞跃。它不使用传统的百分制评分，而是用一个更具现实意义的指标：人类程序员完成同一任务所需的时间。

GPT-3.5：能完成人类需 30 秒的任务。
GPT-4：能完成人类需 4 分钟的任务。
o1：能完成人类需 40 分钟的任务。
GPT-5：能完成人类需 3 小时的任务。
Claude Opus 4.6：能完成人类需 12 小时的任务。

这张图表的坐标轴是对数式的，因此图中的直线意味着指数级增长。最新的 Claude Opus 4.6 模型得分甚至超出了此前的增长趋势线，暗示着其进步速度极快。

为什么最新结果并不可靠

尽管 Claude Opus 4.6 的表现看起来惊人，但其评估结果存在巨大的不确定性。METR 给出的置信区间范围从 5 小时到 66 小时。

问题在于，这个模型已经强大到可以解决 METR 测试库中一些最难的问题。当一个 AI 能够完成所有高难度挑战时，就很难为它的能力设定一个上限。

METR 的研究人员 David Rein 强调：“当我们说测量结果极其嘈杂时，我们是认真的。”

这意味着，我们虽然知道新模型比旧模型更强，但无法确定它究竟强了多少。目前看到的“加速进步”可能只是一个统计假象，而非真实能力的体现。

AI 基准测试的生命周期

衡量标准变得无效，这是一个普遍存在的问题，在 AI 领域被称为 “基准饱和”。

过去的基准：MMLU
- 这是一个涵盖历史、计算机科学、法律等多个主题的大型多任务语言理解测试。
- 2020 年，最好的模型 GPT-3 得分为 43.9%。
- 到 2023 年，GPT-4 的得分已高达 86.4%。
- 如今，顶尖模型的得分都集中在 88% 到 93% 之间，彼此差异很小，部分原因可能是测试本身存在约 6.5% 的错误问题。
- 当所有顶尖模型得分都接近满分时，这个基准就失去了区分能力，即已经饱和。
新的尝试：HLE
- 为了应对 MMLU 饱和，研究人员开发了更难的 HLE（Humanity's Last Exam） 基准。
- 目前最好的模型在 HLE 上的得分约为 44.7%，表明该基准仍有足够的难度来评估未来的模型。

METR 基准的独特之处与新挑战

METR 的方法之所以巧妙，是因为它使用了一个连续的、可扩展的度量单位——人类工作时间。这使得我们可以直观地比较能力差异巨大的模型。例如，可以说 GPT-5 能完成的任务比 GPT-2 难 5400 倍。

然而，即便是这个巧妙的基准也正在接近饱和。目前 METR 测试库中最难的任务，人类大约需要 30 小时才能完成。如果 AI 的进步速度保持不变，很快就会出现能够轻松完成这些任务的模型，届时该基准也将失效。

创造更难测试的困境

从理论上讲，解决方案很简单：增加需要人类花费 40 小时、80 小时甚至 160 小时才能完成的超高难度任务。但现实中这面临两大挑战：

高昂的成本与复杂性
- METR 雇佣程序员的成本是每小时至少 50 美元。要为一个 160 小时的任务建立基准，仅单次成本就高达 8000 美元。
- 更难的是，很难找到愿意花费数周时间来完成一项测试任务的资深程序员，这可能需要他们辞掉本职工作。
更深层的概念问题
- 基准测试依赖于定义明确、独立且易于验证的任务。但现实世界中的工作远非如此。
- 真实的工作任务常常相互关联，需要与他人互动，目标也可能在过程中不断演变。评价一项复杂工作是否“做得好”本身就是一件困难的事。

因此，我们可能会看到，我们能够衡量的能力与我们实际关心的能力之间，差距会越来越大。