专栏名称: GiantPandaLLM
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
GiantPandaLLM  ·  【博客转载】CUDA Coalesced ... ·  2 天前  
GiantPandaLLM  ·  【博客转载】C++/CUDA Data ... ·  3 天前  
GiantPandaLLM  ·  【博客转载】CUDA Kernel ... ·  4 天前  
51好读  ›  专栏  ›  GiantPandaLLM

谈谈对DeepSeek-R1的一些理解

GiantPandaLLM  · 公众号  · 3D  · 2025-01-23 22:44

正文

请到「今天看啥」查看全文


原本我只是抱着追热点的心态扫一下dpsk r1,我甚至没打算看完它的tech report。不过开头关于dpsk-r1-zero的实验结论一下吸引了我,所以把核心内容简单记录下,我会侧重训练流,略去评估。(这边的重点并不在于讨论什么路子是对的、什么是错的,只是对我来说发现一种可能)。

二、DeepSeek-R1-Zero

在dpsk r1的这篇报告里,提到了2个模型,分别是 DeepSeek-R1-Zero DeepSeek-R1 ,总结来看:

  • zero算是一个实验性质的模型,在zero上不通过任何sft的方式,仅使用RL + 规则RM,就能激发模型产出带反思的long cot。这个重要的实验发现进一步启发了r1的训练。

  • r1是受到zero RL相关的实验结果启发,而新训的最终版的模型。 zero所采用的RL方法(即什么样的RL能激发模型主动产出long cot,甚至是反思)将被 r1 参考。

下面简单记录下两者的训练细节。

2.1 强化学习方法

dpsk家的GRPO,不是文本关注的重点,暂略。

2.2 奖励模型-规则式RM

在训练DeepSeek-R1-Zero时,采用了基于规则的奖励系统,主要包括两种类型的奖励:

(1)准确性奖励(Accuracy Rewards) 用于评估模型responses的准确性。例如数学问题的答案是否正确,代码是否通过测试用例等。

(2)格式奖励(Format Rewards)

  • 作用 :除了准确性奖励模型外,还需要评估模型的输出是否遵从了一定的格式要求,以此规范模型的思维过程。
  • 具体要求 :要求模型将其思维过程放在‘ ’和‘ ’标签之间。这种格式化有助于明确模型的推理步骤。

(3)为什么不使用神经网络式的RM?

  • Reward Hacking
  • 训练资源与复杂性

2.3 RL数据的prompt设计

为了训练DeepSeek-R1-Zero,我们首先设计了一个简单的模板,指导基础模型遵循我们指定的指令:

  • 从中可以看出,这个模版就是 sys_msg + question






请到「今天看啥」查看全文