专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
51好读  ›  专栏  ›  APPSO

DeepSeek「五一礼包」来了!新开源模型数学推理能力大提升|附实测细节

APPSO  · 公众号  · app  · 2025-05-01 07:19

主要观点总结

DeepSeek在五一假期前发布了最新版的DeepSeek-Prover-V2模型,包括两个版本:DeepSeek-Prover-V2-7B和DeepSeek-Prover-V2-671B。该模型采用递归和强化学习的组合训练方式,并特别引入了两种解题风格:快速模式和逻辑模式。模型在推理能力上有了显著的提升,并通过蒸馏技术将能力迁移到较小的7B模型中。此外,DeepSeek还推出了全新的数学形式化数据集ProverBench,涵盖多个数学领域的知识点。最终性能评估显示,DeepSeek-Prover-V2-671B在MiniF2F测试中实现了88.9%的通过率,并解决了一系列难题。该模型的使用将遵循公开许可证,目前可通过Hugging Face平台免费下载,并支持Transformers接口部署。

关键观点总结

关键观点1: DeepSeek发布DeepSeek-Prover-V2模型

包含两个版本:DeepSeek-Prover-V2-7B和DeepSeek-Prover-V2-671B,支持不同的输入长度和推理能力。

关键观点2: 模型采用递归和强化学习的组合训练方式

提高了模型的推理能力和自主学习能力。

关键观点3: 模型引入两种解题风格:快速模式和逻辑模式

满足不同的需求,提供灵活的选择。

关键观点4: 模型蒸馏技术的应用

将大模型的能力迁移到较小的7B模型中,提高模型的实用性。

关键观点5: 推出全新的数学形式化数据集ProverBench

涵盖多个数学领域的知识点,用于评估模型的推理能力。

关键观点6: 模型在评估中表现出色

DeepSeek-Prover-V2-671B在MiniF2F测试中实现了88.9%的通过率,并解决了一系列难题。

关键观点7: 模型的开放使用和免费下载

遵循公开许可证,可通过Hugging Face平台免费下载,并支持Transformers接口部署。


正文

请到「今天看啥」查看全文


待快速模式趋于稳定后,研究人员进入第二阶段, 开始 训练更复杂的逻辑推理能力。 他们将 DeepSeek-V3 的数学知识迁移到新模型中,并结合形式化数据,引入「冷启动」机制,构建起更复杂的推理路径。

为了进一步提升推理能力,研究人员引入了 GRPO 的强化学习算法, 不同于传统的 PPO,它直接在多个候选答案中比较优劣,引导模型自主学会选择最优解。

具体做法是:每次输入一个定理,系统会生成 32 个不同的证明方案,然后只保留被 Lean 验证系统判定为「正确」的答案(奖励 1 分,否则 0 分),这样模型就能在高质量反馈中不断进化。

在开发出性能强大的 671B 模型后,DeepSeek 研究团队又尝试把这些能力「蒸馏」到更小的 7B 模型中,而整个过程就像是师傅教徒弟:

先用大模型生成解题过程,再教会小模型理解并复现;同时将小模型输入长度扩展至与大模型一致,并经历相同的强化训练。

这样,即便在资源有限的设备上,用户也能使用小体积模型获得接近大模型的数学推理能力,并根据需求选择快速或详细解题风格。

整个体系中,DeepSeek-V3 负责 拆解复杂定理, 生成自然语言的推理草图,同步转译为 Lean 语言表示的一系列子目标 ,并生成「思路链」作为中间引导。
7B 模型再一步步完成子证明,最终拼接成完整推理。这种「模糊思考 + 精确证明」的训练机制,有效提升了小模型的数学理解深度。






请到「今天看啥」查看全文