专栏名称: 码小辫
给程序员和编程爱好者分享计算机编程电子书以及相关的学习资源
目录
51好读  ›  专栏  ›  码小辫

一本书读懂 DeepSeek 全家桶核心技术

码小辫  · 公众号  ·  · 2025-05-16 17:10

正文

请到「今天看啥」查看全文


HAI-LLM ,通过算法、框架和硬件的紧密配合,突破了跨节点 MoE 训练中的通信瓶颈,实现了高效稳定的训练。DeepSeek-V3 是业界率先使用 FP8 进行混合精度训练 的开源模型。

在推理部署方面, DeepSeek-V3 采用 预填充( Prefilling )和解码( Decoding )分离的策略 ,以及冗余专家策略,在提高推理速度的同时确保了系统的稳定性和可靠性。

DeepSeek 架构图

DeepSeek-R1技术突破

01. 纯强化学习训练

DeepSeek-R1-Zero 的核心创新之一是采用 纯强化学习 Reinforcement Learning RL )进行训练。这一方法颠覆了传统的依赖有监督微调( Supervised Fine-Tuning SFT )和人类反馈强化学习( Reinforcement Learning from Human Feedback RLHF )的训练模式,首次验证了无须任何 SFT 数据,仅通过强化学习即可实现推理能力的自主进化。

02. GRPO 算法
GRPO 算法是 DeepSeek-R1-Zero 使用的另一个重要的创新算法。与传统的强化学习算法(如 PPO DPO )不同, GRPO 算法通过组内奖励对比直接优化策略网络。具体而言,GRPO 算法将同一问题生成的 N 条候选答案划为一组,以组内平均奖励为基线,计算相对优势值。这种方法不需要额外训练价值模型,降低了训练复杂度,提高了训练效率。

GRPO 与 PPO 对比示意图

03. 奖励模型的创新
在强化学习的训练过程中, DeepSeek 研究团队选择 面向结果的奖励模型 ,而不是通常的面向过程的奖励模型。这种方式可以较好地避免奖励欺骗,同时,由于不需要大量标注数据,可以降低训练复杂度。

结果奖励和过程奖励

“冷启动 + 多阶段 RL

为了解决纯强化学习训练带来的可读性差和多语言混杂等问题, DeepSeek-R1 采用“冷启动 + 多阶段 RL ”的训练策略。在冷启动阶段,引入数千条高质量的长思维链数据对基础模型进行微调,强制规范输出格式,提高可读性。随后,通过两阶段强化学习进一步优化模型的性能。

  • 推理导向 RL 结合规则奖励(如答案准确性、语言一致性),优化模型在数学、编程等结构化任务中的表现。

  • 通用对齐 RL 融入人类偏好奖励模型,确保模型在开放域任务中的安全性与实用性。

    DeepSeek-R1 的训练过程



    DeepSeek -R1-Zero 在训练初期没有人工示范,完全靠自己摸索。就像让小孩自己解谜题, 结果他居然悟出了很多强大的解题技巧!但 仅靠自我摸索的 DeepSeek-R1-Zero 给出的答案有时很难读懂,甚至会中英文混杂,或者偏离人们习惯的表达方式。


    因此,在训练 DeepSeek-R1 时,DeepSeek 研究团队对模型进行了两次额外的调整: 第一次是喂给它一些冷启动的例子 ,相当于给模型打好基础,让它知道回答时的基本礼仪和清晰度;







请到「今天看啥」查看全文