Synth Daily

DeepSeek v3.2:便宜好用但速度偏慢

DeepSeek 最新发布的开源模型 v3.2 以其低廉的价格和强大的数学推理能力为卖点,但实际表现并未达到顶尖水平。该模型通过创新的技术降低了训练成本,然而其推理速度较慢,并且因缺乏必要的安全测试和风险说明而存在安全隐患。尽管 DeepSeek 在中国备受推崇并持续创新,但其模型仍落后于领先的封闭模型,未能引发业界的广泛关注。总体而言,v3.2 适合对成本敏感且专注于数学应用的特定用户,但它尚不具备行业领先的竞争力。

回顾:曾经的 “DeepSeek 时刻”

DeepSeek 是一家中国的 AI 研究机构,曾因其高效的训练技术和优秀的开源模型而备受关注。在今年早些时候,它曾一度引发市场恐慌,被称为 “The DeepSeek Moment”

  • 短暂的恐慌: 由于一次成功的病毒式营销,加上其应用登顶应用商店榜首,许多人一度误以为 DeepSeek 或中国已经“赶上”了美国的顶尖 AI 实验室。
  • 不实的叙事: 当时,人们将 DeepSeek 的低训练成本与 OpenAI 的数十亿预算进行对比,并结合其模型在某些方面的优势,错误地放大了其威胁。甚至有政客利用此事件来鼓吹“竞赛论”。
  • 回归现实: 事后来看,这种恐慌是多种因素叠加的结果。事实是,DeepSeek 始终落后领先者大约八个月。随后的几次模型发布,包括 v3.1 和现在的 v3.2,都未能再现当初的轰动效应。

v3.2 发布:宣传与现实

DeepSeek 宣称 v3.2 是一个“以推理为先”的模型,性能达到 GPT-5 级别,并在数学竞赛中取得优异成绩。然而,实际情况似乎并非如此。

DeepSeek 宣称:V3.2-Speciale 在复杂任务上表现出色,但需要更高的 token 使用量。

尽管宣传声称其具备世界领先的推理能力,但实际用户反馈和分析表明,它在实践中的表现低于其基准测试分数,并未引发广泛的积极反响。

技术细节与严重缺陷

v3.2 的技术报告中提到了一项关键创新,但也暴露了一个严重的问题。

  • 技术创新: 模型采用了一种新的注意力机制,这提高了训练效率,并显著降低了扩展上下文窗口的计算成本。这也是该模型价格低廉速度不快的原因。
  • 安全缺失: 整个技术报告或模型卡中,完全没有提及任何形式的安全测试或滥用风险评估。对于一个开源模型来说,这种沉默是极不负责任的。

David Manheim 对此评论道: “它做过安全测试吗?” “先生,这是个好模型!” 我检查了模型卡。完全没有提到滥用或安全问题。坦率地说,这是极不负责任和完全不可接受的。

用户体验:它真的好用吗?

综合来看,v3.2 的实用性取决于用户的具体需求。它适合那些对成本敏感、不追求极致速度、且专注于特定(尤其是数学)领域的用户。

  • 优点:

    • 价格低廉: 成本远低于 Sonnet 4.5 等竞品。
    • 数学能力强: 在数学基准测试中表现出色,适合用于研究和证明辅助。
    • 观点直接: 一些用户欣赏它会直接指出问题,而不是一味迎合。
  • 缺点:

    • 速度极慢: 用户普遍反映其推理速度非常慢,响应时间长。
    • 不适合通用场景: 在日常对话、代码生成等常见任务上表现不佳。
    • 实用性不足: 许多用户认为它没有被“usemaxxed”(为实际使用场景优化),导致其实际可用性不高。

一位用户的体验对比很有代表性: John Pressman: Opus (Claude 4.5) 在我错了的时候说我完全正确,而 V3.2 在我的想法有点道理时却说我胡说八道。但我知道我更想要哪种行为。

基准测试的虚实

尽管 v3.2 在多个基准测试中取得了高分,尤其是在数学方面,但这并不完全等同于在实际应用中的卓越表现。顶尖的闭源模型更注重“usemaxxed”,即针对用户的实际用例进行深度优化。

Lisan al Gaib 的测试总结道: DeepSeek-V3.2 是一款价格实惠的顶尖模型,但前提是:它们速度相当慢……并且会产生极长的推理链,导致每次请求的等待时间非常长。

这个结论点明了核心问题:高基准分数漫长的等待时间并存,使得它在需要快速响应的场景中缺乏竞争力。

结论:一个有用的利基产品

DeepSeek v3.2 并非其宣传中所说的“前沿模型”,但它也并非毫无价值。它是一款在价格上极具吸引力、在数学领域能力突出的模型。

它最大的贡献可能是通过技术创新降低了成本,并再次证明了开源模型可以在特定领域取得突破。然而,其缓慢的速度和对安全问题的完全漠视,限制了它的广泛应用,也使其无法真正挑战目前由闭源模型主导的行业格局。DeepSeek 能否在未来推出更具综合竞争力的版本,仍有待观察。