一项研究提出,通过人工智能(AI)能够独立完成任务所需的时间长度来衡量其性能。研究发现,这一指标在过去六年中呈指数级增长,能力大约每 7 个月翻一番。目前的 AI 在处理短时任务上表现出色,但对于需要数小时的长时任务则成功率很低。如果这一趋势持续,未来十年内 AI 或将能够独立完成目前需要人类花费数天甚至数周才能完成的复杂软件任务,这对评估 AI 的实际应用能力和管理相关风险具有重要意义。
一种新的衡量标准
尽管当前最先进的 AI 在知识问答等基准测试中表现超常,但在现实世界中,它们仍难以独立完成实质性的项目或直接替代人类劳动。这形成了一种矛盾:AI 在某些方面能力飞速增长,但其对现实世界的影响力似乎并未同步提升。
衡量 AI 能完成的 任务时长,为理解其当前能力提供了一个有用的视角。AI 的瓶颈往往不在于解决单个步骤所需的技能或知识,而在于将一长串行动有效地串联起来。
任务时长与成功率
研究发现,人类专家完成一项任务所需的时间,可以很好地预测 AI 模型在该任务上的成功率。
- 对于人类专家 不到 4 分钟 就能完成的任务,当前模型的成功率接近 100%。
- 对于需要 超过 4 小时 的任务,模型的成功率则 低于 10%。
这一发现清晰地解释了上述矛盾:当前最好的模型虽然能处理一些专家也需数小时完成的任务,但它们只能 可靠地完成几分钟长的任务。
指数级增长的趋势
通过分析历史数据,研究揭示了一个显著的规律:最先进模型能够完成的任务时长,在过去 6 年里实现了指数级增长。
- 增长速度:能力大约 每 7 个月翻一番。
- 趋势稳健性:这种指数趋势非常陡峭,意味着即使测量存在较大误差,对未来的预测也相对稳健。例如,即使绝对测量值有 10 倍的偏差,也只会让预测的实现时间改变大约 2 年。
- 多方验证:在其他任务数据集(如 SWE-Bench Verified)上进行的验证也显示出类似的,甚至更快的增长趋势(翻倍时间少于 3 个月)。
对未来的预测与意义
如果过去几年的增长趋势得以延续,其影响将是巨大的。
- 若趋势再持续 2-4 年,通用自主 AI 将有能力执行 长达一周 的复杂任务。
- 若趋势持续到 本十年末,顶尖 AI 系统将能够自主开展 长达一个月的项目。
这种方法将 AI 的性能与现实世界的结果直接联系起来,使得我们不仅可以比较模型的相对性能,还能有意义地解释其绝对性能。
这一预测意味着巨大的机遇和潜在的风险。因此,建立能够准确衡量并预测 AI 实际应用能力的基准,对于未来的规划和风险管理至关重要。