一个名为 Hy3 preview 的神秘语言模型意外登顶 OpenRouter 使用量排行榜,甚至超过了 Claude。经过探究发现,该模型的质量和标价并不突出。真正的关键在于,语言模型的实际成本并非其“标价”,而是受“提示词缓存”机制影响的“有效价格”。另一个模型 DeepSeek V4 Flash 在这方面表现更优,实际成本更低。Hy3 的流行可能源于其免费期带来的用户惯性,或是某个大型应用的集中调用,但这一现象揭示了理解语言模型真实成本的重要性。
一个意想不到的榜首
OpenRouter 是一个连接用户和各种语言模型(LLM)的中间服务商,它会公布模型的使用数据。最近,榜单上出现了一个奇怪的现象:
- 两个新型号在 Token 使用量上超过了著名的 Claude 模型。
- 其中一个是 DeepSeek V4 Flash,这是一款以低成本和高性能著称的开源模型,它的流行合情合理。
- 但另一个名为 Hy3 preview 的模型却鲜为人知。它由腾讯开源,但其公布的基准测试结果并不亮眼。
我错过了什么吗?经过一些非科学的测试,该模型的质量确实与其他中国模型相当,远不及 Claude Opus 4.7 和 GPT 5.5 等模型。它不是一颗被忽视的沧海遗珠,所以肯定有别的原因。
探寻 Hy3 流行的原因
对 Hy3 流行原因的初步调查让人更加困惑。
- 价格因素? Hy3 的标价(每百万输入 Token 0.066 美元)确实比 DeepSeek V4 Flash(0.10 美元)便宜。但前提是质量相似,而事实并非如此。
- 免费推广? Hy3 在五月初确实有过免费期,但目前排行榜上的使用量均来自付费用户。有趣的是,从免费转向付费后,其使用量并未大幅下降,这表明用户确实从中获得了一些价值。
- 特定应用驱动? 历史上有过应用切换默认模型导致某个模型热度飙升的情况。但数据显示,使用 Hy3 的前 5 大应用仅占其总活动量的不到 1%,排除了这一可能。
最大的疑点是,Hy3 的使用量似乎是稳定且持续的,这表明其受欢迎程度并非偶然。
揭秘 LLM 的真实成本:“有效价格”
要理解这个现象,需要了解语言模型 API 的计费方式,尤其是 提示词缓存 (prompt caching)。
- 语言模型的调用是“无状态”的,每次对话都需要重新处理整个对话历史。这意味着随着对话变长,输入 Token 的数量会累积增加。
- 为了节省算力和成本,大多数供应商会缓存已经处理过的输入 Token。当这些 Token 再次出现时,只需支付极低的“缓存读取成本”。
- 如今,API 调用成本中 98% 来自输入 Token,而这些输入 Token 又被大量缓存。
这意味着语言模型的“标价”现在具有误导性。真正的成本是“有效价格”,它考虑了缓存带来的折扣。
成本对比:Hy3 vs. DeepSeek V4 Flash
当我们比较有效价格时,情况就完全不同了。
- Hy3 preview:由 SiliconFlow 提供服务,其缓存读取成本高达输入成本的 44%。其有效价格约为 每百万 Token 0.034 美元。
- DeepSeek V4 Flash:当由其创建者 DeepSeek 自己提供服务时,得益于技术创新,其缓存读取成本仅为输入成本的 2%!这使得其有效价格低至 每百万 Token 0.018 美元。
结论是,DeepSeek V4 Flash 的实际成本几乎只有 Hy3 的一半,并且质量更高。当然,选择 DeepSeek 意味着需要考虑数据隐私等问题,因为它是一家中国公司。
最终,Hy3 为何如此受欢迎依然是个谜。最有可能的猜测是,某个大型非编码类应用将其作为数据处理的后端,并且该应用的用户尚未意识到有更具性价比的选择。不过,随着用户对 LLM 真实成本的理解加深,市场很可能会转向像 DeepSeek V4 Flash 这样更经济高效的模型。