Synth Daily

OpenAI和Anthropic推理服务亏钱了吗?

这篇内容通过粗略的成本估算挑战了“AI推理服务是烧钱无底洞”的普遍看法。其核心论点在于,处理输入(预填充)的成本极低,而生成输出(解码)的成本则要高出近千倍。这种巨大的成本不对称性,使得像代码助手这类输入密集型应用利润丰厚,而视频生成等输出密集型应用则成本高昂。最终结论认为,“AI成本过高”的说法可能服务于现有市场巨头的利益,旨在阻止新竞争者进入,我们应警惕AI推理服务重蹈云计算领域高利润率的覆辙。

一次“餐巾纸上”的成本估算

为了验证AI推理是否真的不可持续,我们可以进行一次基于公开数据的粗略计算。这里的估算仅关注原始计算成本,并采用相对保守的硬件租用价格。

  • 计算硬件成本: 假设使用72个H100 GPU集群,单块H100的租用价格为每小时 2美元,总成本为每小时 144美元。这个价格高于大型AI公司实际可能支付的折扣价。
  • 模型架构基准: 以一个性能与主流模型相当的开源模型(如DeepSeek R1)作为参考,其拥有370亿激活参数。

输入与输出:成本的千倍差异

模型处理数据分为两个主要阶段:处理输入(预填充)和生成输出(解码)。这两个阶段的成本效率存在天壤之别。

预填充阶段(处理输入)

在处理输入时,模型可以并行处理大量数据。一个包含72个H100的集群,每秒可以处理约 1300万个输入Token

  • 换算成本: 这相当于每小时处理468亿个输入Token。用总成本除以处理量(144美元 ÷ 468亿),得出每百万输入Token的成本约为 0.003美元

简而言之,处理输入的成本几乎可以忽略不计。

解码阶段(生成输出)

生成输出是串行过程,一次只能生成一个Token,效率远低于输入处理。同样的集群配置,每秒只能生成约 12960个输出Token

  • 换算成本: 这相当于每小时生成4670万个输出Token。用总成本除以生成量(144美元 ÷ 4670万),得出每百万输出Token的成本约为 3.08美元

结论是惊人的:生成输出的成本是处理输入的1000倍。

特殊情况:长文本处理

上述计算基于内存带宽是瓶颈的普遍情况。但当处理超长文本(如超过12.8万Token)时,计算本身会成为瓶颈,导致成本上升2到10倍。这就是为什么许多服务会对超长上下文窗口额外收费,或者像Claude Code那样将上下文限制在20万Token以内,以维持在成本较低的内存带宽限制区间内运行。

真实世界中的经济模型

基于输入和输出的成本差异,我们可以分析不同应用场景的盈利能力。

  • A. 个人订阅用户 (ChatGPT Pro)

    • 一个每月20美元的重度用户,其使用模式(假设70%输入/30%输出)的实际计算成本约为每月 3美元
    • 这意味着OpenAI在这类用户身上有 5到6倍 的利润空间。
  • B. 开发者用户 (以编程助手为例)

    • 开发者使用场景是典型的输入密集型:输入大量代码库、文档和上下文,但只需要生成相对简短的代码片段或解释。
    • 一个每月200美元的重度开发者用户,其产生的实际计算成本可能仅为每月 16.89美元
    • 这带来了超过 11倍 的巨大利润空间。
  • C. API 业务

    • 目前API的定价(例如,输入3美元/输出15美元)与实际成本(输入约0.01美元/输出3美元)相比,显示出 80%至95% 的毛利率。
    • 这使得API业务更像一个高利润的软件业务,而非基础设施业务。

结论:AI推理并非无底洞

即使我们的估算存在偏差,其揭示的经济规律依然成立。AI推理,尤其对于输入密集型应用来说,并非一个不可持续的烧钱业务,反而利润极其丰厚。

“AI成本高昂到无法持续”的说法,可能更多地服务于现有巨头的商业利益,通过夸大技术和资金门槛来劝退潜在的竞争者。

真正成本高昂的是那些输出密集型的应用,例如视频生成。这类应用输入一个简短的文本提示,却需要生成数百万Token的视频帧,其经济模型完全不同。

我们需要警惕这种对成本的夸大宣传。十年前,云计算的成本被过度神话,最终让少数几家“超大规模云服务商”获得了巨额利润。如果我们不加审视,AI推理服务很可能会重蹈覆辙。