正文
HAI-LLM
,通过算法、框架和硬件的紧密配合,突破了跨节点
MoE
训练中的通信瓶颈,实现了高效稳定的训练。DeepSeek-V3
是业界率先使用
FP8
进行混合精度训练
的开源模型。
在推理部署方面,
DeepSeek-V3
采用
预填充(
Prefilling
)和解码(
Decoding
)分离的策略
,以及冗余专家策略,在提高推理速度的同时确保了系统的稳定性和可靠性。
DeepSeek 架构图
DeepSeek-R1-Zero
的核心创新之一是采用
纯强化学习
(
Reinforcement Learning
,
RL
)进行训练。这一方法颠覆了传统的依赖有监督微调(
Supervised Fine-Tuning
,
SFT
)和人类反馈强化学习(
Reinforcement Learning from Human Feedback
,
RLHF
)的训练模式,首次验证了无须任何
SFT
数据,仅通过强化学习即可实现推理能力的自主进化。
GRPO
算法是
DeepSeek-R1-Zero
使用的另一个重要的创新算法。与传统的强化学习算法(如
PPO
、
DPO
)不同,
GRPO
算法通过组内奖励对比直接优化策略网络。具体而言,GRPO
算法将同一问题生成的
N
条候选答案划为一组,以组内平均奖励为基线,计算相对优势值。这种方法不需要额外训练价值模型,降低了训练复杂度,提高了训练效率。
GRPO 与 PPO 对比示意图
在强化学习的训练过程中,
DeepSeek
研究团队选择
面向结果的奖励模型
,而不是通常的面向过程的奖励模型。这种方式可以较好地避免奖励欺骗,同时,由于不需要大量标注数据,可以降低训练复杂度。
结果奖励和过程奖励
“冷启动
+
多阶段
RL
”
为了解决纯强化学习训练带来的可读性差和多语言混杂等问题,
DeepSeek-R1
采用“冷启动
+
多阶段
RL
”的训练策略。在冷启动阶段,引入数千条高质量的长思维链数据对基础模型进行微调,强制规范输出格式,提高可读性。随后,通过两阶段强化学习进一步优化模型的性能。
-
推理导向
RL
:
结合规则奖励(如答案准确性、语言一致性),优化模型在数学、编程等结构化任务中的表现。
-
通用对齐
RL
:
融入人类偏好奖励模型,确保模型在开放域任务中的安全性与实用性。
DeepSeek-R1 的训练过程
DeepSeek
-R1-Zero
在训练初期没有人工示范,完全靠自己摸索。就像让小孩自己解谜题,
结果他居然悟出了很多强大的解题技巧!但
仅靠自我摸索的 DeepSeek-R1-Zero 给出的答案有时很难读懂,甚至会中英文混杂,或者偏离人们习惯的表达方式。
因此,在训练 DeepSeek-R1 时,DeepSeek 研究团队对模型进行了两次额外的调整:
第一次是喂给它一些冷启动的例子
,相当于给模型打好基础,让它知道回答时的基本礼仪和清晰度;