正文
原本我只是抱着追热点的心态扫一下dpsk r1,我甚至没打算看完它的tech report。不过开头关于dpsk-r1-zero的实验结论一下吸引了我,所以把核心内容简单记录下,我会侧重训练流,略去评估。(这边的重点并不在于讨论什么路子是对的、什么是错的,只是对我来说发现一种可能)。
二、DeepSeek-R1-Zero
在dpsk r1的这篇报告里,提到了2个模型,分别是
DeepSeek-R1-Zero
和
DeepSeek-R1
,总结来看:
-
zero算是一个实验性质的模型,在zero上不通过任何sft的方式,仅使用RL + 规则RM,就能激发模型产出带反思的long cot。这个重要的实验发现进一步启发了r1的训练。
-
r1是受到zero RL相关的实验结果启发,而新训的最终版的模型。
zero所采用的RL方法(即什么样的RL能激发模型主动产出long cot,甚至是反思)将被 r1 参考。
下面简单记录下两者的训练细节。
2.1 强化学习方法
dpsk家的GRPO,不是文本关注的重点,暂略。
2.2 奖励模型-规则式RM
在训练DeepSeek-R1-Zero时,采用了基于规则的奖励系统,主要包括两种类型的奖励:
(1)准确性奖励(Accuracy Rewards)
用于评估模型responses的准确性。例如数学问题的答案是否正确,代码是否通过测试用例等。
(2)格式奖励(Format Rewards)
-
作用
:除了准确性奖励模型外,还需要评估模型的输出是否遵从了一定的格式要求,以此规范模型的思维过程。
-
具体要求
:要求模型将其思维过程放在‘
’和‘
’标签之间。这种格式化有助于明确模型的推理步骤。
(3)为什么不使用神经网络式的RM?
2.3 RL数据的prompt设计
为了训练DeepSeek-R1-Zero,我们首先设计了一个简单的模板,指导基础模型遵循我们指定的指令:
-
从中可以看出,这个模版就是
sys_msg + question