DeepSeek 发布开源权重数学模型,IMO 金牌水平震撼登场

DeepSeekMath-V2 是一款专注于数学推理的人工智能模型,它通过一种“自我验证”的机制来解决问题。该系统包含一个负责生成证明的“生成器”和一个负责检查证明步骤是否严谨的“验证器”。验证器会像老师一样给生成器的解答打分,并以此为奖励来指导生成器不断改进,最终产出逻辑严密的证明过程。这种方法使模型在国际数学奥林匹克(IMO)等顶级竞赛中取得了金牌水平的成绩,证明了AI不仅能算出正确答案,还能学会严谨的思考过程。

当前 AI 数学推理的局限

尽管大语言模型(LLM)在数学能力上进步显著,但它们依赖的方法存在根本性问题。目前主流方法通过奖励“正确的最终答案”来训练模型,但这并不能解决一个核心矛盾。

    • 正确答案 ≠ 正确推理: 模型可能通过错误或侥幸的步骤得出了正确答案。
    • 不适用于证明题: 许多数学任务,如定理证明,需要的是一步步严谨的推导,而不是一个最终的数值。因此,仅奖励最终答案的方法在这里行不通。

为了推动深度推理的极限,我们认为有必要验证数学推理过程的全面性和严谨性

一种新的解决方案:自我验证

为了克服上述局限,研究人员提出了一种名为 自我验证 的新方法。其核心是训练一个能够准确评估数学证明过程的AI验证器。

这个系统主要由两部分构成:

    • 证明生成器: 负责创建数学证明的步骤。
    • 证明验证器: 经过专门训练,用于评估生成器给出的每一步证明是否准确、可信。

关键在于,验证器本身被用作一个 奖励模型。它会指导生成器在最终确定证明之前,尽可能多地识别和解决自身推理中的问题。这种“自查自纠”的机制能有效提升推理的严谨性。

令人瞩目的成果

通过这种自我验证的方法训练出的模型 DeepSeekMath-V2,在多个顶级数学竞赛中展现了强大的定理证明能力。

    • IMO 2025: 取得了金牌水平的分数。
    • CMO 2024: 取得了金牌水平的分数。
    • Putnam 2024: 取得了接近满分(118/120)的成绩。

这些结果表明,自我验证的数学推理是一个可行的研究方向,可能有助于开发出能力更强的数学AI系统。