专栏名称: GiantPandaLLM

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

目录

相关文章推荐

GiantPandaLLM · 【博客转载】CUDA Coalesced ... · 2 天前

GiantPandaLLM · 【博客转载】C++/CUDA Data ... · 3 天前

GiantPandaLLM · 【博客转载】CUDA Kernel ... · 4 天前

51好读 › 专栏 › GiantPandaLLM

谈谈对DeepSeek-R1的一些理解

GiantPandaLLM · 公众号 · 3D · 2025-01-23 22:44

正文

请到「今天看啥」查看全文

原本我只是抱着追热点的心态扫一下dpsk r1，我甚至没打算看完它的tech report。不过开头关于dpsk-r1-zero的实验结论一下吸引了我，所以把核心内容简单记录下，我会侧重训练流，略去评估。（这边的重点并不在于讨论什么路子是对的、什么是错的，只是对我来说发现一种可能）。

二、DeepSeek-R1-Zero

在dpsk r1的这篇报告里，提到了2个模型，分别是 DeepSeek-R1-Zero 和 DeepSeek-R1 ，总结来看：

zero算是一个实验性质的模型，在zero上不通过任何sft的方式，仅使用RL + 规则RM，就能激发模型产出带反思的long cot。这个重要的实验发现进一步启发了r1的训练。
r1是受到zero RL相关的实验结果启发，而新训的最终版的模型。 zero所采用的RL方法（即什么样的RL能激发模型主动产出long cot，甚至是反思）将被 r1 参考。

下面简单记录下两者的训练细节。

2.1 强化学习方法

dpsk家的GRPO，不是文本关注的重点，暂略。

2.2 奖励模型-规则式RM

在训练DeepSeek-R1-Zero时，采用了基于规则的奖励系统，主要包括两种类型的奖励：

（1）准确性奖励（Accuracy Rewards） 用于评估模型responses的准确性。例如数学问题的答案是否正确，代码是否通过测试用例等。

（2）格式奖励（Format Rewards）

作用：除了准确性奖励模型外，还需要评估模型的输出是否遵从了一定的格式要求，以此规范模型的思维过程。
具体要求 ：要求模型将其思维过程放在‘ ’和‘ ’标签之间。这种格式化有助于明确模型的推理步骤。

（3）为什么不使用神经网络式的RM？

Reward Hacking
训练资源与复杂性

2.3 RL数据的prompt设计

为了训练DeepSeek-R1-Zero，我们首先设计了一个简单的模板，指导基础模型遵循我们指定的指令：

从中可以看出，这个模版就是 sys_msg + question

请到「今天看啥」查看全文

推荐文章

GiantPandaLLM · 【博客转载】CUDA Coalesced Memory Access/CUDA Shared Memory Bank

2 天前

GiantPandaLLM · 【博客转载】C++/CUDA Data Alignment

3 天前

GiantPandaLLM · 【博客转载】CUDA Kernel Execution Overlap

4 天前

CEO智库 · 你和衰老之间，只隔着这6个坏习惯！

8 年前

中国经济网 · 为何不要相信成功人士的建议，职场上谁也不告诉你的成功法则丨推广

8 年前

科技每日推送 · 难怪最近很多人iPhone都出问题了，果然是因为这个……

8 年前

中国经济网 · 过年回家跑长途？出发前这些检查不能忘！丨实用

8 年前

大宗内参 · 独家专访 | 石头：诺奖得主说错了

8 年前

移动版

51好读 - 微信公众号文章