一本书读懂 DeepSeek 全家桶核心技术

码小辫 · 公众号 · · 2025-05-16 17:10

正文

请到「今天看啥」查看全文

HAI-LLM ，通过算法、框架和硬件的紧密配合，突破了跨节点 MoE 训练中的通信瓶颈，实现了高效稳定的训练。DeepSeek-V3 是业界率先使用 FP8 进行混合精度训练的开源模型。

在推理部署方面， DeepSeek-V3 采用预填充（ Prefilling ）和解码（ Decoding ）分离的策略，以及冗余专家策略，在提高推理速度的同时确保了系统的稳定性和可靠性。

DeepSeek 架构图

DeepSeek-R1技术突破

01. 纯强化学习训练

DeepSeek-R1-Zero 的核心创新之一是采用纯强化学习（ Reinforcement Learning ， RL ）进行训练。这一方法颠覆了传统的依赖有监督微调（ Supervised Fine-Tuning ， SFT ）和人类反馈强化学习（ Reinforcement Learning from Human Feedback ， RLHF ）的训练模式，首次验证了无须任何 SFT 数据，仅通过强化学习即可实现推理能力的自主进化。

02. GRPO 算法

GRPO 算法是 DeepSeek-R1-Zero 使用的另一个重要的创新算法。与传统的强化学习算法（如 PPO 、 DPO ）不同， GRPO 算法通过组内奖励对比直接优化策略网络。具体而言，GRPO 算法将同一问题生成的 N 条候选答案划为一组，以组内平均奖励为基线，计算相对优势值。这种方法不需要额外训练价值模型，降低了训练复杂度，提高了训练效率。

GRPO 与 PPO 对比示意图

03. 奖励模型的创新

在强化学习的训练过程中， DeepSeek 研究团队选择面向结果的奖励模型，而不是通常的面向过程的奖励模型。这种方式可以较好地避免奖励欺骗，同时，由于不需要大量标注数据，可以降低训练复杂度。

结果奖励和过程奖励

“冷启动 + 多阶段 RL ”

为了解决纯强化学习训练带来的可读性差和多语言混杂等问题， DeepSeek-R1 采用“冷启动 + 多阶段 RL ”的训练策略。在冷启动阶段，引入数千条高质量的长思维链数据对基础模型进行微调，强制规范输出格式，提高可读性。随后，通过两阶段强化学习进一步优化模型的性能。

推理导向 RL ：结合规则奖励（如答案准确性、语言一致性），优化模型在数学、编程等结构化任务中的表现。
通用对齐 RL ：融入人类偏好奖励模型，确保模型在开放域任务中的安全性与实用性。

DeepSeek-R1 的训练过程

DeepSeek -R1-Zero 在训练初期没有人工示范，完全靠自己摸索。就像让小孩自己解谜题，结果他居然悟出了很多强大的解题技巧！但仅靠自我摸索的 DeepSeek-R1-Zero 给出的答案有时很难读懂，甚至会中英文混杂，或者偏离人们习惯的表达方式。

因此，在训练 DeepSeek-R1 时，DeepSeek 研究团队对模型进行了两次额外的调整：第一次是喂给它一些冷启动的例子，相当于给模型打好基础，让它知道回答时的基本礼仪和清晰度；