Anthropic 和 OpenAI 都推出了旨在加速其代码模型响应速度的“快速模式”,但采取了截然不同的技术路径。Anthropic 通过降低批处理规模来提升速度,这使得其完整的 Opus 4.6 模型速度提高了约 2.5 倍,但成本也更高。相比之下,OpenAI 利用与 Cerebras 合作开发的巨型专用芯片,推出了一个速度快 15 倍的小型蒸馏模型 GPT-5.3-Codex-Spark。尽管 OpenAI 的方法在技术上更令人印象深刻,但其模型能力有所下降。最终,这种以牺牲准确性为代价来换取速度的模式是否实用,仍是一个悬而未决的问题,因为处理模型犯的错误可能比等待一个更准确的回答更耗时。
两种不同的“加速”路径
近期,两大 AI 实验室都推出了各自的“快速模式”,但实现方式和结果差异巨大。
Anthropic 的快速模式:
- 模型: 使用完整的 Opus 4.6 模型。
- 速度提升: 约 2.5 倍 (从 65 tokens/s 提升至 170 tokens/s)。
- 核心优势: 保证了与原模型完全相同的能力和准确性。
OpenAI 的快速模式:
- 模型: 使用一个全新的、更小的蒸馏模型 GPT-5.3-Codex-Spark。
- 速度提升: 约 15 倍 (从 65 tokens/s 提升至超过 1000 tokens/s)。
- 核心优势: 实现了极高的速度,但模型能力有所下降,有时会犯一些原模型不会犯的错误。
Anthropic 的策略:降低批处理规模
Anthropic 的方法很可能基于降低批处理大小 (low-batch-size) 的推理策略。AI 推理的核心瓶颈在于内存,将用户数据复制到 GPU 需要时间。为了提高整体吞吐量,系统通常会“批量”处理多个用户的请求,但这会增加每个用户的等待时间。
这就像一个公交系统。如果每上来一位乘客,公交车就立刻出发(零批处理),那么这位乘客的通勤时间会大大缩短。但整个公交系统的效率会极低,因为其他人可能要在车站等上几个小时才能等到一辆车。
Anthropic 的快速模式本质上是提供了一张“特快通行证”。你支付更高的价格(约六倍),相当于买下了车上所有空余的座位,以换取公交车为你即刻出发。这种方式不需要改变模型,其成本和速度提升的比例也符合从高批处理转向低批处理的预期。
OpenAI 的绝招:专用巨型芯片
OpenAI 的路径完全不同,其核心是与 Cerebras 公司合作开发的专用芯片。常规的 H100 GPU 芯片只有一英寸见方,而 Cerebras 的芯片则有 70 平方英寸,是一块完整的巨型晶圆。
这种巨型芯片的优势在于其巨大的片上内存(SRAM)。最新的 Cerebras 芯片拥有 44GB 的 SRAM,足以将整个模型装入内存中进行推理,避免了从外部缓慢读写数据的瓶颈。
- 技术优势: 完全在内存中进行推理,速度得到巨大提升,达到了 15 倍。
- 技术限制: 44GB 的内存虽然巨大,但仍不足以容纳像 GPT-5.3-Codex 这样的顶级大模型。
因此,OpenAI 必须训练一个更小的蒸馏模型(Spark),这个模型保留了原模型的部分能力,但体积小到足以装进 Cerebras 芯片。这就是为什么用户在使用快速模式时,会感觉模型有点“小模型的气息”。
速度与能力的权衡
尽管 Anthropic 的做法更像是一种聪明的商业策略,但 OpenAI 的方案在技术上无疑更令人印象深刻。它不仅需要攻克在特殊芯片上运行模型的难题,还需要训练出一个足够好用的小型蒸馏模型。
然而,追求极致速度的实用性仍然存疑。
我个人并不觉得“更快但能力更弱的推理”特别有用。AI 智能体的价值主要取决于它们犯错的频率,而不是原始速度。用 20% 的额外错误率去换取 6 倍的速度是一笔糟糕的买卖,因为用户处理模型错误所花费的时间,远比等待模型生成结果的时间要多。
虽然目前这些快速模式的定位尚不明确,但它们未来可能会成为 AI 系统中执行特定低级任务的核心部分,而不是直接面向用户的通用工具。