虽然人工智能模型完成复杂任务的时间能力正呈指数级增长,但其计算成本也在同步快速攀升。分析显示,AI 完成任务的“小时成本”差异巨大,部分顶尖模型的最佳小时成本已接近甚至超过人类工程师。随着任务时间延长,成本增长更为显著,这表明 AI 的经济可行性可能落后于技术进步。未来,我们需要关注 AI 的推理成本,因为这决定了其理论性能能否转化为实际且经济的应用。
一个被忽视的关键问题:成本
我们都看到了 METR 的图表,显示 AI 代理能够执行的任务时长在过去七年中呈指数级增长。例如,从 GPT-2 只能处理几秒钟的任务,到最新模型能完成人类工程师数小时才能完成的工作。
然而,我们忽略了一个关键信息:完成这些工作的成本。
在过去的七年里,AI 系统的模型参数数量增长了 4,000 倍,生成的 tokens 数量增长了约 100,000 倍。虽然效率有所提升,但实现这些顶级性能的成本很可能也在呈指数级增长。
- 如果成本增长与性能提升同步:那么 AI 相对于人类的成本效益比保持不变。
- 如果成本增长慢于性能提升:那么 AI 会变得比人类更便宜。
- 但如果成本增长快于性能提升:那么这些前沿 AI 系统在成本上将越来越没有竞争力。
当前的性能指标可能具有误导性,因为它可能是在不计成本、过度投入计算资源的情况下达成的。这就像 F1 赛车一样,展示了技术的极限,但并不代表日常应用的实际情况。
因此,我们必须提出的一个关键问题是: AI 代理的“小时成本”是如何随时间变化的?
什么是“小时成本”?
这里的“小时成本”指的是:使用一个大型语言模型(LLM)完成一项任务所需的费用,除以该任务通常需要人类完成的时间。
例如,如果一个模型在 50% 的情况下能成功完成一项人类工程师需要 2 小时才能完成的任务,我们就可以计算出模型完成该任务的成本,然后除以 2,得出其“小时费率”。
令人惊讶的是,很少有人在问这个问题,而对于当前 AI 的“小时成本”是多少——是几分钱、几美元还是几百美元——大多数人并没有概念。
从数据中寻找答案
METR 发布的一张性能与成本关系图可以帮助我们解答这个问题。该图表展示了随着投入的计算资源(即成本)增加,AI 模型能够完成的任务时长(性能)如何变化。
- 人类工程师(黄线):成本与任务时长呈线性关系。完成一个 8 小时任务的成本大约是 1 小时任务的 8 倍。
- AI 代理(其他颜色的曲线):所有 AI 模型都表现出 边际收益递减 的现象。即随着成本的增加,性能的提升速度越来越慢,最终会达到一个平台期。
“最佳点”与“饱和点”
为了更好地分析,我们可以在图上找到每个模型的两个关键点:
- 最佳点 (Sweet Spot):这是模型能达到的 最低小时成本 的点。在此之前,性能增长快于成本增长;在此之后,边际收益开始递减。
- 饱和点 (Saturation Point):这是模型的性能 基本达到平台期 的点。在此之后,投入大量额外成本只能换来微不足道的性能提升。
分析显示,不同模型的成本差异巨大:
- AI 代理的“最佳点”小时成本从 每小时 40 美分到 40 美元 不等,成本差异高达 100 倍。
- 这些还只是最佳成本。在很多情况下,尤其是接近其性能极限时,模型的每小时成本会高出 10 到 100 倍。
- 例如,GPT-5 在处理 45 分钟的任务时,小时成本约为 13 美元;但处理 2 小时的任务时,小时成本飙升至 120 美元。
- 更极端的是,名为 o3 的模型在达到其 1.5 小时的性能极限时,小时成本高达 350 美元,这已经远超人类工程师的工资。
成本与性能的正相关关系
无论是分析“最佳点”还是“饱和点”,数据都揭示了一个清晰的趋势:
能够处理更长任务(更高时间范围)的模型,其成本也越高,甚至连 最低小时成本 也更高。
这表明,我们正在接近一个临界点,即模型的峰值性能是以不切实际的高昂成本换来的。如果这个趋势持续下去,仅仅根据性能来预测 AI 何时能完成更复杂的任务将是误导性的,因为当它们达到那个能力时,其价格可能高得令人无法接受。
结论:警惕成本陷阱
这项分析提供了初步但有力的证据,表明我们可能需要重新审视对 AI 发展的乐观预期。
- 成本增长可能不可持续:为实现更长任务处理能力而付出的成本似乎正在呈指数级增长,甚至小时成本也在上升。
- 理论与现实的差距:AI 在理论上能做什么(技术可能性)与在经济上可行(实际应用)之间将出现越来越大的鸿沟。
- 关注点应转移:我们不应只关注 AI 能做什么,更应关注 以什么成本去做。AI 代理的现实世界应用可能会远远落后于其在基准测试中展现的理论性能。