主要观点总结
DeepSeek在五一假期前夕发布了DeepSeek-Prover-V2模型,包括两个版本:DeepSeek-Prover-V2-7B和DeepSeek-Prover-V2-671B。该模型采用递归和强化学习的组合训练方式,并引入了两种互补的解题风格:快速模式和逻辑模式。模型在推理能力上有了显著提升,并通过强化训练将大模型的能力蒸馏到小模型中,使得小模型也能获得接近大模型的数学推理能力。此外,DeepSeek还推出了全新的数学形式化数据集ProverBench,以评估模型在不同数学领域的推理能力。DeepSeek-Prover-V2的成功推出标志着语言模型在正式数学推理方面的能力得到了明显提升,并遵循公开许可证使用。
关键观点总结
关键观点1: DeepSeek-Prover-V2模型的发布
DeepSeek发布了两个版本的DeepSeek-Prover-V2模型:DeepSeek-Prover-V2-7B和DeepSeek-Prover-V2-671B。其中,671B模型在推理性能上最强。
关键观点2: 模型的训练方式和特点
DeepSeek-Prover-V2模型采用递归和强化学习的组合训练方式,并引入了快速模式和逻辑模式两种互补的解题风格。模型能够生成精炼的答案或详细的推理过程,适应不同需求。
关键观点3: 模型的推理能力提升
通过强化训练,DeepSeek将大模型的能力蒸馏到小模型中,使小模型也能获得接近大模型的数学推理能力。这种能力蒸馏的过程借鉴了师傅教徒弟的方式,有效提高小模型的数学理解深度。
关键观点4: 全新的数学形式化数据集ProverBench的推出
DeepSeek推出了全新的数学形式化数据集ProverBench,涵盖多个数学领域的问题题目,用于评估模型的推理能力。该数据集包含真实的高中竞赛题目和本科阶段的知识点。
关键观点5: 模型的应用和评估
DeepSeek-Prover-V2系列模型已可通过Hugging Face平台免费下载,并支持Transformers接口部署。通过实际测试,该模型在解决数学问题上的表现令人瞩目,成功解决了多个难题。
正文
待快速模式趋于稳定后,研究人员进入第二阶段,
开始
训练更复杂的逻辑推理能力。
他们将 DeepSeek-V3 的数学知识迁移到新模型中,并结合形式化数据,引入「冷启动」机制,构建起更复杂的推理路径。
为了进一步提升推理能力,研究人员引入了 GRPO 的强化学习算法,
不同于传统的 PPO,它直接在多个候选答案中比较优劣,引导模型自主学会选择最优解。
具体做法是:每次输入一个定理,系统会生成 32 个不同的证明方案,然后只保留被 Lean 验证系统判定为「正确」的答案(奖励 1 分,否则 0 分),这样模型就能在高质量反馈中不断进化。
在开发出性能强大的 671B 模型后,DeepSeek 研究团队又尝试把这些能力「蒸馏」到更小的 7B 模型中,而整个过程就像是师傅教徒弟:
先用大模型生成解题过程,再教会小模型理解并复现;同时将小模型输入长度扩展至与大模型一致,并经历相同的强化训练。
这样,即便在资源有限的设备上,用户也能使用小体积模型获得接近大模型的数学推理能力,并根据需求选择快速或详细解题风格。
整个体系中,DeepSeek-V3 负责
拆解复杂定理,
生成自然语言的推理草图,同步转译为 Lean 语言表示的一系列子目标
,并生成「思路链」作为中间引导。
7B 模型再一步步完成子证明,最终拼接成完整推理。这种「模糊思考 + 精确证明」的训练机制,有效提升了小模型的数学理解深度。