Synth Daily

AI 现状:基于 OpenRouter 的 100 万亿 Token 实证研究

基于对 OpenRouter 平台超过 100 万亿 token 的大语言模型(LLM)交互数据的分析,揭示了 AI 领域的关键转变。开放权重模型的使用量显著增长,尤其是在创意角色扮演和编程辅助领域。推理模型已占据超过一半的使用份额,标志着行业正从单步生成转向多步、工具化的“代理推理”。用户留存分析发现了一种“灰姑娘玻璃鞋效应”,即早期用户若找到与其工作负载完美匹配的模型,会表现出极强的长期粘性。地理分布上,北美仍是主要市场,但亚洲份额迅速提升。总体而言,LLM 生态系统正朝着多模型共存、应用多样化和全球化竞争的方向发展。

开放与闭源模型的演变

proprietary 模型(通常称为闭源模型)仍然占据大部分市场份额,但开放权重模型(OSS)已稳步增长,到 2025 年底已占据约三分之一的使用量。

  • 开源模型增长显著: 开源模型的使用量增长主要由 DeepSeek V3Kimi K2 等关键模型的发布推动。这些增长并非短暂的实验,而是持续的生产应用。

  • 中国开源模型的崛起: 中国开发的开源模型从几乎可以忽略不计的份额增长到占据总使用量的近 30%(在某些周),平均每周贡献约 13% 的 token 量。这反映了其快速迭代和具有竞争力的模型质量。

  • 双轨生态系统: 市场形成了一个稳定的双轨结构:

    • 闭源模型: 在需要高可靠性和性能的企业级或受监管的工作负载中占主导地位。
    • 开源模型: 因其成本效益、透明度和可定制性而备受青睐。

当前的市场平衡点大约在 30% 的开源使用率。这两种模型并非相互排斥,而是在开发者青睐的多模型技术栈中互为补充。

开源模型的主要参与者

开源模型市场已经从一家独大演变为一个多元化的竞争格局。早期,DeepSeek 系列模型占据了超过一半的开源 token 使用量,但如今市场已变得更加分散。

  • 市场格局多元化: 新的参与者如 QwenMinimaxMoonshotAI 的模型迅速获得了大量用户,通常在发布后几周内就达到了生产级规模。
  • 竞争加剧: 目前没有单一的开源模型能持续占据超过 25% 的市场份额,使用量被更均匀地分配在五到七个主要模型之间。
  • 迭代优势: 持续的改进至关重要。DeepSeek 通过连续发布新版本保持了其领先地位,而开发停滞的模型则会迅速失去市场份额。

模型大小与市场需求的匹配

市场趋势显示,开发者和用户的偏好正在从小型模型转向中型和大型模型,以寻求能力与效率的最佳平衡。

  • 小型模型 (小于 15B 参数): 尽管不断有新模型发布,但整体使用份额正在下降。这个市场高度分散,用户在众多选择中不断寻找更好的替代品。
  • 中型模型 (15B 至 70B 参数): 这是一个新兴且快速增长的市场。自 Qwen2.5 Coder 32B 发布以来,这一类别已成为一个竞争激烈的生态系统,表明用户正在寻找能力与效率之间的平衡点
  • 大型模型 (大于 70B 参数): 市场并未整合,而是走向多元化。用户正在多个高性能的大型开源模型之间进行比较和选择,而不是默认使用单一标准。

开源模型的应用场景

开源模型被广泛用于创意、技术和信息查询等多种任务,但在两个特定领域表现尤为突出:创意角色扮演编程辅助

超过一半的开源模型使用量(约 52%)用于 角色扮演,编程是第二大类别。

  • 角色扮演的优势: 开源模型因其内容限制较少、更易于定制而成为创意和娱乐应用的理想选择。它们在需要灵活对话、情感细微度和角色一致性的场景中表现出色,尤其受到游戏、互动小说和模拟社区的欢迎。

  • 编程辅助的增长: 随着开源模型代码能力的提升,越来越多的开发者利用它们进行本地编程,以避免 API 成本。

  • 中国开源模型的特点: 与全球趋势不同,中国开源模型的使用场景中,编程和技术类任务合计占比(39%)已超过角色扮演(33%),显示出其在技术和生产力领域的强大竞争力。

代理推理的兴起

LLM 的使用方式正在发生根本性转变,从简单的单轮文本生成转向多步骤、集成工具的复杂工作流。这种我们称之为“代理推理”的模式,意味着模型不再仅仅是生成文本,而是通过规划、调用工具和在扩展上下文中交互来采取行动。

推理模型占据半壁江山

  • 使用份额激增: 专为推理优化的模型所处理的 token 份额从 2025 年初的微不足道,增长到超过 50%
  • 市场需求驱动: 用户越来越青睐能够管理任务状态、遵循多步逻辑并支持代理式工作流的模型,而不仅仅是生成文本。
  • 主要驱动模型: 这一趋势由 xAI 的 Grok Code Fast 1Google 的 Gemini 2.5 ProOpenAI 的 gpt-oss-120b 等模型引领。

交互模式的变化:更长、更复杂

模型的典型工作负载已经从简单的问答演变为处理大量上下文的分析任务。

  • 输入长度增长: 平均每个请求的输入(prompt)长度从 1.5K token 增长了近四倍,达到 6K 以上。
  • 输出长度增加: 输出(completion)长度也几乎增加了三倍,从约 150 token 增长到 400 token,这部分增长主要来自推理步骤。
  • 编程是主要驱动力: 编程相关的任务是输入长度增长的主要原因,其平均输入 token 数量是其他任务的 3-4 倍。

代理推理正在成为新的默认使用模式。对于模型提供商而言,这意味着低延迟、强大的工具处理能力和长上下文支持正变得至关重要。

LLM 的主要应用类别

编程已经成为所有模型中增长最稳定、最终占据主导地位的类别,反映了 AI 辅助开发工具的普及。

  • 编程成为主导类别: 编程相关的请求量从 2025 年初约占 11% 的 token 总量,增长到近期超过 50%
  • 竞争格局: Anthropic 的 Claude 系列 在编程类别中占据主导地位,处理了超过 60% 的相关任务。但 OpenAI、Google 以及 Z.AI、Qwen 等开源提供商正在稳步获得市场份额。

各类别内部的使用模式

大多数应用类别的使用模式并非均匀分布,而是集中在一到两个核心场景上。

  • 角色扮演: 使用场景高度集中,近 60% 的流量用于结构化的角色扮演游戏 (RPG),而非随意的聊天。
  • 编程: 需求非常广泛,超过三分之二的流量被标记为通用编程,表明用户正在利用 LLM 解决从逻辑调试到脚本编写的各种问题。
  • 专业领域 (金融、法律、健康): 这些领域的使用场景更为分散,没有单一的主导性任务。这可能反映了这些领域的复杂性,或缺乏像编程和聊天那样成熟的 LLM 工作流。

不同模型提供商的专长领域

  • Anthropic (Claude): 超过 80% 的使用量集中在编程和技术任务上,角色扮演使用极少,定位为解决复杂问题的专业工具。
  • Google (Gemini): 使用场景非常广泛,涵盖翻译、科学、技术和通用知识查询,更像一个通用信息引擎。
  • xAI (Grok): 使用量绝大多数集中在编程领域,但近期随着免费推广,在技术、角色扮演和学术领域也出现了增长。
  • OpenAI (GPT): 使用模式已从早期的科学任务转向编程和技术,这两者目前合计占一半以上的流量。
  • DeepSeek: 角色扮演和休闲互动占主导地位,通常占其总使用量的三分之二以上。
  • Qwen: 编程是其核心应用,占 40-60% 的 token 量,显示出其在技术和开发者任务上的明确侧重。

全球使用趋势

LLM 的使用正在变得日益全球化,北美以外地区的增长尤为迅速。

  • 北美份额下降: 虽然北美仍是最大的单一市场,但其支出份额已降至总额的一半以下
  • 亚洲迅速崛起: 亚洲不仅是前沿模型的开发者,也正成为一个快速增长的消费市场。其全球支出份额从约 13% 翻了一番多,达到近 31%
  • 语言分布: 英语以超过 82% 的份额占据主导地位,但简体中文(近 5%)、俄语和西班牙语等也占有重要份额。

用户留存的“灰姑娘玻璃鞋效应”

尽管 LLM 市场普遍存在高流失率,但数据显示,一小部分早期用户群体表现出非凡的长期留存。我们将此现象称为“灰姑娘玻璃鞋效应”。

当一个新发布的模型恰好满足了某个用户群体先前未被解决的高价值工作负载需求时,它就找到了那个完美的“玻璃鞋”。这种精确匹配会产生强大的锁定效应,即使用户面临更新、更好的模型选择,他们也倾向于坚持使用最初的解决方案。

  • 先发优势: 第一个成功解决某个关键工作负载的模型能够获得持久的优势。用户会将该模型深度集成到他们的工作流中,从而产生高昂的转换成本。
  • 留存是能力跃升的信号: 某个早期用户群体的持久留存,表明该模型在某个方面实现了从“不可能”到“可能”的质变
  • 机会窗口短暂: 随着竞争对手迅速跟进,捕获这些“基础用户”的机会窗口非常短暂但至关重要。
  • 无匹配的后果: 如果一个模型在发布时未能找到这种“玻璃鞋”,它的所有用户群体都会表现出同样差的留存率,因为它从未在一个关键领域成为“前沿”选择。
  • 回旋镖效应 (Boomerang Effect): DeepSeek 的数据显示,一些流失的用户在尝试了其他替代品后会重新回归。这表明,经过比较测试,用户确认 DeepSeek 在特定性能、成本效益或独特功能组合上仍是其工作负载的最佳选择。

成本与使用动态

通过分析不同 AI 应用类别的成本与使用量关系,可以发现市场被清晰地划分为几个部分。

  • 大众市场驱动者 (低成本,高用量): 这个象限由角色扮演编程主导。它们以接近中位数的成本实现了最高的用量,是推动 AI 普及的核心应用。
  • 高端工作负载 (高成本,高用量): 包括技术科学。用户愿意为这些高价值的专业任务支付高昂费用,以换取顶尖的性能。技术类应用是成本最高的类别,显示出其需求的独特性和重要性。
  • 专业领域专家 (高成本,低用量): 包括金融健康学术。这些是高风险的细分领域,用户对准确性和可靠性的要求极高,因此愿意支付溢价。
  • 小众实用工具 (低成本,低用量): 包括翻译法律等。这些是功能性的、成本敏感的任务,可能已被商品化或有足够好的廉价替代方案。

模型定价与市场定位

模型市场也呈现出类似的分层结构,价格与使用量之间没有强相关性,但市场细分明显。

一个简单的经验法则是:闭源模型服务于高价值任务,而开源模型则驱动高流量的低价值任务。

  • 高端领导者 (Premium Leaders):Anthropic 的 Claude 系列,尽管价格昂贵,但仍拥有高使用量,表明用户愿意为质量和可靠性付费。
  • 高效巨头 (Efficient Giants):Google 的 Gemini FlashDeepSeek V3,以低廉的价格提供了强大的性能,成为高流量工作负载的默认选择。
  • 高端专家 (Premium Specialists):OpenAI 的 GPT-4 和 GPT-5 Pro,价格极高,使用量适中,专门用于那些质量远比成本重要的、高风险的细分任务。
  • 长尾模型 (Long Tail): 许多模型虽然价格极低,但因性能或市场匹配度不足,使用量有限。