DeepSeek V4——几乎站在前沿

中国人工智能实验室 DeepSeek 发布了 V4 系列的两款预览模型：DeepSeek-V4-Pro 和 DeepSeek-V4-Flash。这两款模型均采用混合专家（MoE）架构，支持 100 万 token 的超长上下文，并使用 MIT 开源许可。其核心优势在于极具竞争力的定价，通过大幅提升长上下文处理效率，显著降低了计算成本。尽管它们的整体性能略低于 GPT-5.4 等顶级模型，但其高性价比使其在市场上极具吸引力。

模型概览与规格

DeepSeek 推出了两款新的预览模型，作为其备受期待的 V4 系列的开端。这两款模型可能是目前最大的开源权重模型。

DeepSeek-V4-Pro:
- 总参数量: 1.6T (万亿)
- 激活参数量: 49B (十亿)
- 模型文件大小: 865GB
DeepSeek-V4-Flash:
- 总参数量: 284B (十亿)
- 激活参数量: 13B (十亿)
- 模型文件大小: 160GB

这两款模型都采用了 混合专家 (MoE) 架构，并支持 100 万 token 的上下文长度，同时遵循 MIT 开源许可。

极具竞争力的定价

这两款模型最引人注目的特点是其 极低的价格，使其在同类模型中脱颖而出。

DeepSeek-V4-Flash: 每百万 token 输入 0.14美元，输出 0.28美元。这使其成为比 OpenAI 的 GPT-5.4 Nano 更便宜的小型模型。
DeepSeek-V4-Pro: 每百万 token 输入 1.74美元，输出 3.48美元。这使其成为大型前沿模型中最便宜的选择。

这个定价策略让 DeepSeek 在与 Gemini、OpenAI 和 Anthropic 的前沿模型的竞争中占据了显著的成本优势。

高效率的技术实现

DeepSeek 能够提供如此低价的关键在于其对模型效率的极大关注，尤其是在处理长上下文时。

在 100 万 token 上下文的场景下，即使是激活参数更多的 DeepSeek-V4-Pro，其单 token 计算量也仅为 DeepSeek-V3.2 的 27%，KV 缓存大小仅为 10%。而 DeepSeek-V4-Flash 的效率更高，其单 token 计算量和 KV 缓存分别仅为 V3.2 的 10% 和 7%。

这意味着新模型在处理大规模输入时，所需的算力和内存开销被大幅度削减，从而直接降低了运营成本。

性能基准与定位

根据 DeepSeek 发布的自评基准，其 Pro 模型性能强大，足以与其它前沿模型竞争，但仍存在一定差距。

DeepSeek-V4-Pro-Max 在标准推理基准测试中表现优于 GPT-5.2 和 Gemini-3.0-Pro。

尽管如此，其性能略逊于 GPT-5.4 和 Gemini-3.1-Pro，这表明其发展轨迹比当前最先进的前沿模型大约落后 3到6个月。

这一定位表明 DeepSeek 旨在提供一个 接近顶级但成本极低 的选择，对于预算敏感但又需要强大能力的用户来说，这是一个非常有吸引力的方案。