《Horizons》的时长

当前的人工智能模型表现出一种“尖峰性”——在某些复杂任务上能力超群,但在简单任务上却频频失败。为了衡量其发展,业界提出了“时间视野”基准,即通过AI完成任务所需的时间来评估其能力。然而,这一指标存在根本性缺陷:它错误地将“耗时”等同于“难度”,其测试任务范围狭隘,并且偏向于那些易于衡量和训练的技能。因此,该基准无法真实反映AI的综合能力,其对预测颠覆性AI何时到来的价值也十分有限。

“尖峰”的AI与衡量的困境

当前的人工智能模型行为怪异。它们在某些方面表现出惊人的能力,例如流利对话、预测蛋白质结构、在许多游戏中击败顶尖人类玩家。然而,它们在另一些简单任务上却显得极其笨拙,比如使用电脑光标、保持基本的逻辑一致性,或是在不捏造事实的情况下解释知识。

这种高能力与低能力的奇怪组合被称为“尖峰性”。由于我们缺乏对智能的深刻理解,如何准确衡量AI的进展,并预测其何时可能带来颠覆性影响,成了一个巨大的挑战。

一种有问题的衡量标准:“时间视野”

为了应对这一挑战,METR机构提出了“时间视野”(horizon length)基准,希望它能成为“AI智能体的摩尔定律”。

    • 基本理念: 根据人类完成各项任务所需的时间来对任务难度进行排序。然后,根据AI模型能完成多“难”(即多耗时)的任务来评估其能力。
    • 例子: 如果一个模型的“50%时间视野为4分钟”,意味着它在一系列通常需要人类4分钟完成的任务中,成功率为一半。
    • 目标: METR希望通过这个统一的“时间”单位,衡量几乎所有模型在各类任务上的表现,并外推预测AI何时能实现更强大的能力,例如自动化AI研发(可能需要几十小时的时间视野)或对社会造成灾难性危害(可能需要一个月的时间视野)。

然而,这种外推预测是否可靠,非常值得怀疑。

概念上的混乱:时间不等于难度

将任务难度与完成时间划等号,是“时间视野”基准的一个根本性问题。

任务的难度通常不能简单地用完成时间来描述。

    • 历史案例: 香农发现信息论花费了约5年,而阿蒙森穿越西北航道耗时约3年。我们能因此说阿蒙森的成就难度只有香农的⅗吗?显然不能。
  • 多维度的难度: 任务的难度体现在不同方面,例如:
      • 体力难度: 像用铲子挖一条横跨墨西哥的运河。
      • 计算难度: 像分解圆周率前一万亿位的数字。
      • 人际难度: 像说服一位领导人结束战争。
      • 科学难度: 像发现电磁定律。

这些不同类型的难度无法被“时间成本”这一单一维度来合理衡量。因此,“时间视野”这个概念本身就存在缺陷,不适合作为评估AI能力的通用标准。

基准的固有偏见:只测量可测量的

即便不作为通用标准,该基准在特定领域(如编程任务)的有效性也值得怀疑。它存在一个更深层次的问题:基准偏见

“时间视野”基准包含的任务,都有一个共同特点:它们都是精确指定、可自动检查的任务

    • 不代表真实问题: 现实世界中许多真正困难的问题,其难点恰恰在于我们不知道如何精确定义解决方案,也无法轻易衡量进展。
    • 偏向现有AI的优势: 当一个任务的成功标准是明确的,就可以针对这个标准直接训练AI模型,直到其表现良好。这导致AI在“可基准化”的任务上表现异常出色。
    • 系统性高估能力: 这种偏见使得基准分数可能系统性地高估AI的真实能力,因为它衡量的恰恰是AI最擅长或最容易被训练的领域,而非那些更模糊、更具创造性的能力。

衡量AI表现最容易的任务,往往也是AI最容易被训练得表现出色的任务。

有限的预测价值

那么,这个基准对于预测颠覆性AI的到来有多大价值?答案是,可能非常小。

衡量AI在完成简单、明确定义的任务上的进展,与预测其何时能自主创造巨大财富、发明新的AI架构或摧毁文明之间,存在巨大的鸿沟。

这有点像试图用旧石器时代的独木舟记录来预测人类何时能登上月球。

    • 有限的参考意义: 这个基准确实能提供一些反向证据。例如,如果一个模型连使用电脑光标这样简单的任务都无法完成,那么我们可以合理推断它可能还无法实现复杂的自我递归改进。
    • 无法预测未来: 但是,知道AI学会了造“独木舟”,并不能告诉我们它何时能造出“宇宙飞船”。掌握简单技能的时间点,对于预测掌握颠覆性技能的时间点,几乎没有提供多少有效信息。

因此,将“时间视野”这类存在明显缺陷的基准作为AI治理和风险评估的基础,或用它来做出精确到年份的AI发展预测,是一件非常令人担忧的事情。我们对AI进展的评估需要更加谨慎和多维。