评估人工智能(AI)的真实能力正变得愈发困难。METR 团队通过一个创新的基准来衡量 AI 在软件工程任务上的进步,该基准以人类程序员完成相同任务所需的时间作为度量单位。尽管数据显示 AI 能力呈指数级增长,但最新的 AI 模型(如 Claude Opus 4.6)已能完成测试中最难的部分,导致其能力上限难以确定,这表明现有基准正趋于“饱和”。这一现象并非孤例,传统的 MMLU 基准也因 AI 的进步而失效。虽然可以开发更难的测试,但这不仅成本高昂,更重要的是,这些结构化的测试越来越难以反映 AI 在处理现实世界中复杂、模糊且需要协作的真实任务时的表现。
一种衡量 AI 进步的新方法
METR(模型评估与威胁研究)团队发布了一张图表,直观地展示了 AI 模型在软件工程任务上能力的飞跃。它不使用传统的百分制评分,而是用一个更具现实意义的指标:人类程序员完成同一任务所需的时间。
- GPT-3.5:能完成人类需 30 秒的任务。
- GPT-4:能完成人类需 4 分钟的任务。
- o1:能完成人类需 40 分钟的任务。
- GPT-5:能完成人类需 3 小时的任务。
- Claude Opus 4.6:能完成人类需 12 小时的任务。
这张图表的坐标轴是对数式的,因此图中的直线意味着指数级增长。最新的 Claude Opus 4.6 模型得分甚至超出了此前的增长趋势线,暗示着其进步速度极快。
为什么最新结果并不可靠
尽管 Claude Opus 4.6 的表现看起来惊人,但其评估结果存在巨大的不确定性。METR 给出的置信区间范围从 5 小时到 66 小时。
问题在于,这个模型已经强大到可以解决 METR 测试库中一些最难的问题。当一个 AI 能够完成所有高难度挑战时,就很难为它的能力设定一个上限。
METR 的研究人员 David Rein 强调:“当我们说测量结果极其嘈杂时,我们是认真的。”
这意味着,我们虽然知道新模型比旧模型更强,但无法确定它究竟强了多少。目前看到的“加速进步”可能只是一个统计假象,而非真实能力的体现。
AI 基准测试的生命周期
衡量标准变得无效,这是一个普遍存在的问题,在 AI 领域被称为 “基准饱和”。
过去的基准:MMLU
- 这是一个涵盖历史、计算机科学、法律等多个主题的大型多任务语言理解测试。
- 2020 年,最好的模型 GPT-3 得分为 43.9%。
- 到 2023 年,GPT-4 的得分已高达 86.4%。
- 如今,顶尖模型的得分都集中在 88% 到 93% 之间,彼此差异很小,部分原因可能是测试本身存在约 6.5% 的错误问题。
- 当所有顶尖模型得分都接近满分时,这个基准就失去了区分能力,即已经饱和。
新的尝试:HLE
- 为了应对 MMLU 饱和,研究人员开发了更难的 HLE(Humanity's Last Exam) 基准。
- 目前最好的模型在 HLE 上的得分约为 44.7%,表明该基准仍有足够的难度来评估未来的模型。
METR 基准的独特之处与新挑战
METR 的方法之所以巧妙,是因为它使用了一个连续的、可扩展的度量单位——人类工作时间。这使得我们可以直观地比较能力差异巨大的模型。例如,可以说 GPT-5 能完成的任务比 GPT-2 难 5400 倍。
然而,即便是这个巧妙的基准也正在接近饱和。目前 METR 测试库中最难的任务,人类大约需要 30 小时才能完成。如果 AI 的进步速度保持不变,很快就会出现能够轻松完成这些任务的模型,届时该基准也将失效。
创造更难测试的困境
从理论上讲,解决方案很简单:增加需要人类花费 40 小时、80 小时甚至 160 小时才能完成的超高难度任务。但现实中这面临两大挑战:
高昂的成本与复杂性
- METR 雇佣程序员的成本是每小时至少 50 美元。要为一个 160 小时的任务建立基准,仅单次成本就高达 8000 美元。
- 更难的是,很难找到愿意花费数周时间来完成一项测试任务的资深程序员,这可能需要他们辞掉本职工作。
更深层的概念问题
- 基准测试依赖于定义明确、独立且易于验证的任务。但现实世界中的工作远非如此。
- 真实的工作任务常常相互关联,需要与他人互动,目标也可能在过程中不断演变。评价一项复杂工作是否“做得好”本身就是一件困难的事。
因此,我们可能会看到,我们能够衡量的能力与我们实际关心的能力之间,差距会越来越大。