中国人工智能实验室 DeepSeek 发布了 V4 系列的两款预览模型:DeepSeek-V4-Pro 和 DeepSeek-V4-Flash。这两款模型均采用混合专家(MoE)架构,支持 100 万 token 的超长上下文,并使用 MIT 开源许可。其核心优势在于极具竞争力的定价,通过大幅提升长上下文处理效率,显著降低了计算成本。尽管它们的整体性能略低于 GPT-5.4 等顶级模型,但其高性价比使其在市场上极具吸引力。
模型概览与规格
DeepSeek 推出了两款新的预览模型,作为其备受期待的 V4 系列的开端。这两款模型可能是目前最大的开源权重模型。
DeepSeek-V4-Pro:
- 总参数量: 1.6T (万亿)
- 激活参数量: 49B (十亿)
- 模型文件大小: 865GB
DeepSeek-V4-Flash:
- 总参数量: 284B (十亿)
- 激活参数量: 13B (十亿)
- 模型文件大小: 160GB
这两款模型都采用了 混合专家 (MoE) 架构,并支持 100 万 token 的上下文长度,同时遵循 MIT 开源许可。
极具竞争力的定价
这两款模型最引人注目的特点是其 极低的价格,使其在同类模型中脱颖而出。
DeepSeek-V4-Flash: 每百万 token 输入 0.14美元,输出 0.28美元。这使其成为比 OpenAI 的 GPT-5.4 Nano 更便宜的小型模型。
DeepSeek-V4-Pro: 每百万 token 输入 1.74美元,输出 3.48美元。这使其成为大型前沿模型中最便宜的选择。
这个定价策略让 DeepSeek 在与 Gemini、OpenAI 和 Anthropic 的前沿模型的竞争中占据了显著的成本优势。
高效率的技术实现
DeepSeek 能够提供如此低价的关键在于其对模型效率的极大关注,尤其是在处理长上下文时。
在 100 万 token 上下文的场景下,即使是激活参数更多的 DeepSeek-V4-Pro,其单 token 计算量也仅为 DeepSeek-V3.2 的 27%,KV 缓存大小仅为 10%。而 DeepSeek-V4-Flash 的效率更高,其单 token 计算量和 KV 缓存分别仅为 V3.2 的 10% 和 7%。
这意味着新模型在处理大规模输入时,所需的算力和内存开销被大幅度削减,从而直接降低了运营成本。
性能基准与定位
根据 DeepSeek 发布的自评基准,其 Pro 模型性能强大,足以与其它前沿模型竞争,但仍存在一定差距。
- DeepSeek-V4-Pro-Max 在标准推理基准测试中表现优于 GPT-5.2 和 Gemini-3.0-Pro。
尽管如此,其性能略逊于 GPT-5.4 和 Gemini-3.1-Pro,这表明其发展轨迹比当前最先进的前沿模型大约落后 3到6个月。
这一定位表明 DeepSeek 旨在提供一个 接近顶级但成本极低 的选择,对于预算敏感但又需要强大能力的用户来说,这是一个非常有吸引力的方案。