自2025年以来,全球开放权重大型语言模型的竞争格局发生了显著变化。以 DeepSeek 和阿里巴巴的 Qwen 系列为代表的中国模型,在性能和应用广度上展现出强大的竞争力,甚至在某些方面超越了美国对手。尽管 Moonshot 的 Kimi K2 在推理能力上表现卓越,但其巨大的模型体积限制了本地化部署。与此同时,OpenAI 的 gpt-oss 系列在推理任务上速度快、效率高,但在知识广度上存在短板。总体而言,中国模型在性能上占据领先地位,但中美间的政治因素为美国企业采用这些模型设置了障碍,而美国本土的开源项目(如 Olmo 3)则在努力追赶。
1. 阿里巴巴的 Qwen 系列
核心要点:Qwen 系列在几乎所有模型尺寸上都表现出色,提供了极具性价比的选择。然而,其中国背景可能是美国公司采用它的最大障碍。
阿里巴巴作为电子商务和云服务巨头,其开发的 Qwen 系列模型已成为全球最领先的开放模型家族之一。
- 全面的模型覆盖: Qwen 提供了从小型到2350亿参数的多种模型,能够满足不同场景的需求。正如研究员内森·兰伯特所说:“仅 Qwen 一家,就几乎与整个美国开放模型生态系统相匹敌。”
- 在小型模型上的优势: Qwen 在小型模型上表现尤其出色,这些模型可以在廉价硬件上高效运行,非常适合企业用于处理数据流水线中的简单任务。
- 社区活跃度高: Qwen 是目前全球下载量最大的模型家族,拥有一个活跃的社区。爱彼迎(Airbnb)首席执行官甚至公开表示,公司“在很大程度上依赖阿里巴巴的 Qwen 模型”,因为它快速、便宜且性能足够好。
- 采用障碍: 许多公司,尤其是美国公司,出于品牌形象或合规原因,无法使用来自中国的 Qwen 模型。他们担心模型输出可能被操纵,尽管这种风险在技术上很难证实,但已成为其广泛应用的主要阻力。
人们严重低估了因 Qwen 和 DeepSeek 模型来自中国而无法使用它们的公司数量。这包括那些知道模型权重本身无法向其创建者泄露任何信息的内部部署解决方案。
2. Moonshot 的 Kimi K2
核心要点:Kimi K2 Thinking 被认为是目前全球最强的开放模型之一,尤其在写作和工具调用方面能力突出,但极难在个人设备上本地运行。
Moonshot AI 是一家成立于2023年3月的中国初创公司,其旗舰模型 Kimi K2 备受瞩目。
- 顶尖的性能: Kimi K2 Thinking 在多项基准测试中排名靠前,被认为是除 OpenAI、谷歌和 Anthropic 之外最强大的模型。许多用户称赞其出色的写作能力。
- 强大的工具调用能力: 它是首批能够执行数百次连续工具调用的开放权重模型之一,这使得复杂的代理工作流(agentic workflows)成为可能。风险投资家查马斯·帕里哈皮蒂亚透露,他的公司已将大量工作负载转移到 Kimi K2,因为它“性能更好,而且比 OpenAI 和 Anthropic 便宜得多”。
- 运行门槛极高: 该模型拥有超过一万亿个参数,下载文件超过 600GB。在个人电脑上运行量化版本的速度仅为每秒半个词元。因此,实际使用 Kimi K2 几乎必须依赖 API 服务或专门的计算集群。
3. OpenAI 的 gpt-oss 系列
核心要点:gpt-oss 模型在推理任务(如数学和编码)上表现出色且速度极快,但在这些领域之外的知识储备非常薄弱。
OpenAI 在2025年8月发布了两款开放权重模型,其中 120b 版本几乎可以肯定是美国最强的开放模型。
- 为推理而优化: 这两款模型专为推理和代理任务设计。OpenAI 声称它们在核心推理基准上与 o4-mini 模型“接近持平”。
- 速度优势: gpt-oss 模型运行速度非常快。有用户在本地以每秒 224 个词元的速度运行 20b 版本,超过了许多主流 API 的速度。
- 知识面狭窄: 这些模型最大的缺点是事实性知识匮乏。在一个简单的问答测试中,120b 版本的正确率仅为 16.8%(作为对比,Gemini 3 Pro 为 70%),并且在遇到不懂的问题时几乎总是会产生幻觉。
- 适用场景: 如果你需要一个可以在本地运行且专注于推理和编码的美国模型,gpt-oss 是一个可靠的选择。
4. DeepSeek 系列模型
核心要点:DeepSeek 持续发布强大的模型,尤其在数学领域表现突出。其早期成功激发了中国开放模型的复兴。
DeepSeek 是一家旨在通过开放模型实现通用人工智能(AGI)的公司。
- 行业催化剂: 2025年1月发布的 DeepSeek R1 震惊了世界,它首次向消费者展示了完整的思维链,并推动了中国开放权重模型的浪潮。
- 数学能力超群: 最新发布的 V3.2 Speciale 模型在 MathArena 基准测试中甚至超过了所有闭源模型。
- 市场反响平平: 尽管基准测试数据亮眼,但最新的 V3.2 模型并未引起广泛关注。有评论认为它“还行,便宜但速度慢”。
- 安全顾虑: 曾有报告指出 DeepSeek 网站向一家中国国有企业传输信息,这让一些用户倾向于通过美国服务商或在自己的硬件上使用其产品。
5. 艾伦人工智能研究所的 Olmo 3
核心要点:Olmo 3 不仅是开放权重,更是真正的“开源”模型,提供了训练代码和数据。其开箱即用的性能略逊于同尺寸的 Qwen 模型。
艾伦人工智能研究所(AI2)是一个非营利研究机构,其 Olmo 系列模型以其开放性而著称。
- 真正的开源: 与其他只发布模型权重的开发者不同,AI2 公布了训练代码、数据以及多个训练过程中的模型检查点。这使得研究人员可以深入学习其开发过程。
- 为企业提供灵活性: 企业可以基于早期的 Olmo 检查点进行微调,以确保模型能更好地学习特定任务。项目负责人汉娜·哈吉希尔齐指出,只在最终模型上进行微调效果不佳,而选择合适的训练阶段介入则更为有效。
- 性能差距: 尽管具有开放优势,Olmo 3 模型的开箱性能仍略低于同尺寸的最佳开放权重模型(如 Qwen)。
6. Z.AI 的 GLM 4.6 系列
核心要点:GLM 4.6 是一个稳健的选择,尤其在编码任务上表现出色。其开放策略可能是为了在海外市场建立信任。
Z.AI(前身为智谱AI)是一家成立于2019年的中国初创公司。
- 稳固的市场地位: Z.AI 在中国市场早已是受欢迎的供应商。最近发布的 GLM 4.6 模型进一步巩固了其作为编码强项的声誉。
- 开放策略的背后: 公司产品总监李子轩表示,作为一家中国公司,开放权重是获得海外企业信任的有效方式,因为客户可以直接在本地试用模型,而不必担心将数据发送到中国的 API。
- 未来的不确定性: 这种开放策略可能只是暂时的。如果 Z.AI 的市场地位和经济激励发生变化,它未来可能会转向闭源模式。
7. 英伟达的 Nemotron
核心要点:英伟达是一个被低估的开放权重模型开发者,其 Nemotron 模型表现稳健,并有望在未来进一步扩展。
英伟达不仅仅是硬件供应商,也在积极开发自己的开放模型,其 Nemotron 系列具备成为市场重要参与者的潜力。