专栏名称: 百度智能云
聚焦人工智能(AI)、大数据(Big Data)、云计算(Cloud),以“ABC”三位一体战略,帮助企业客户实现数字化、智能化转型。百度云,智能,计算无限可能!
目录
相关文章推荐
白鲸出海  ·  重生之我在美图做CEO|对话创始人 ·  13 小时前  
海外独角兽  ·  为什么 AI Agent 需要新的商业模式? ·  15 小时前  
阿里云开发者  ·  面向多工具任务调度的两种路径:MCP vs ... ·  昨天  
阿里云开发者  ·  Cursor入门:MCP开发调用和项目实战 ·  2 天前  
51好读  ›  专栏  ›  百度智能云

手把手教你三步极速蒸馏DeepSeek R1,效果媲美OpenAI o3 mini!

百度智能云  · 公众号  · 科技公司  · 2025-02-11 20:47

正文

请到「今天看啥」查看全文


选择“数学竞赛”,使用千帆ModelBuilder一键蒸馏DeepSeek-R1

为什么选择数学竞赛? 原因很简单:


一,数学问题通常具有唯一的正确答案,便于直接对比模型输出,评估其准确性。


二,数学题的解题过程能清晰地展示模型的“思考”路径,帮助判断模型是否真正掌握了关键推理能力。


在这个场景下,我们选取百度自主研发的轻量级大模型ERNIE Speed作为学生模型,通过公开数据集GSM8K和SCQ5K进行了测试。


蒸馏前后模型效果:

  • 模型效果对比:取四个模型分别在公开数据集GSM8K、SCQ5K下的效果评估对比



蒸馏前模型的数学解题能力表现一般,在GSM8K、SCQ5K数据集上的表现分别为84%和55%。然而,蒸馏后的模型在GSM8K和SCQ5K上分别达到95%和81%。可以看出, 蒸馏后的模型可基本追平DeepSeek-R1,并且超过OpenAI o3-mini。


  • 回复效果对比:我们还可以通过一个具体的数学问题,直观感受蒸馏前后模型的差异。








请到「今天看啥」查看全文