神秘的 Hy3 LLM 以巨大优势登顶 OpenRouter 模型排行榜

一个名为 Hy3 preview 的神秘语言模型意外登顶 OpenRouter 使用量排行榜，甚至超过了 Claude。经过探究发现，该模型的质量和标价并不突出。真正的关键在于，语言模型的实际成本并非其“标价”，而是受“提示词缓存”机制影响的“有效价格”。另一个模型 DeepSeek V4 Flash 在这方面表现更优，实际成本更低。Hy3 的流行可能源于其免费期带来的用户惯性，或是某个大型应用的集中调用，但这一现象揭示了理解语言模型真实成本的重要性。

一个意想不到的榜首

OpenRouter 是一个连接用户和各种语言模型（LLM）的中间服务商，它会公布模型的使用数据。最近，榜单上出现了一个奇怪的现象：

两个新型号在 Token 使用量上超过了著名的 Claude 模型。
其中一个是 DeepSeek V4 Flash，这是一款以低成本和高性能著称的开源模型，它的流行合情合理。
但另一个名为 Hy3 preview 的模型却鲜为人知。它由腾讯开源，但其公布的基准测试结果并不亮眼。

我错过了什么吗？经过一些非科学的测试，该模型的质量确实与其他中国模型相当，远不及 Claude Opus 4.7 和 GPT 5.5 等模型。它不是一颗被忽视的沧海遗珠，所以肯定有别的原因。

探寻 Hy3 流行的原因

对 Hy3 流行原因的初步调查让人更加困惑。

价格因素？ Hy3 的标价（每百万输入 Token 0.066 美元）确实比 DeepSeek V4 Flash（0.10 美元）便宜。但前提是质量相似，而事实并非如此。
免费推广？ Hy3 在五月初确实有过免费期，但目前排行榜上的使用量均来自付费用户。有趣的是，从免费转向付费后，其使用量并未大幅下降，这表明用户确实从中获得了一些价值。
特定应用驱动？ 历史上有过应用切换默认模型导致某个模型热度飙升的情况。但数据显示，使用 Hy3 的前 5 大应用仅占其总活动量的不到 1%，排除了这一可能。

最大的疑点是，Hy3 的使用量似乎是稳定且持续的，这表明其受欢迎程度并非偶然。

揭秘 LLM 的真实成本：“有效价格”

要理解这个现象，需要了解语言模型 API 的计费方式，尤其是 提示词缓存 (prompt caching)。

语言模型的调用是“无状态”的，每次对话都需要重新处理整个对话历史。这意味着随着对话变长，输入 Token 的数量会累积增加。
为了节省算力和成本，大多数供应商会缓存已经处理过的输入 Token。当这些 Token 再次出现时，只需支付极低的“缓存读取成本”。
如今，API 调用成本中 98% 来自输入 Token，而这些输入 Token 又被大量缓存。

这意味着语言模型的“标价”现在具有误导性。真正的成本是“有效价格”，它考虑了缓存带来的折扣。

成本对比：Hy3 vs. DeepSeek V4 Flash

当我们比较有效价格时，情况就完全不同了。

Hy3 preview：由 SiliconFlow 提供服务，其缓存读取成本高达输入成本的 44%。其有效价格约为 每百万 Token 0.034 美元。
DeepSeek V4 Flash：当由其创建者 DeepSeek 自己提供服务时，得益于技术创新，其缓存读取成本仅为输入成本的 2%！这使得其有效价格低至 每百万 Token 0.018 美元。

结论是，DeepSeek V4 Flash 的实际成本几乎只有 Hy3 的一半，并且质量更高。当然，选择 DeepSeek 意味着需要考虑数据隐私等问题，因为它是一家中国公司。

最终，Hy3 为何如此受欢迎依然是个谜。最有可能的猜测是，某个大型非编码类应用将其作为数据处理的后端，并且该应用的用户尚未意识到有更具性价比的选择。不过，随着用户对 LLM 真实成本的理解加深，市场很可能会转向像 DeepSeek V4 Flash 这样更经济高效的模型。