DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

机器之心 · 公众号 · AI · 2025-05-24 11:13

正文

请到「今天看啥」查看全文

这里需要把握的核心认知是：当前使用的所有 RL 算法在实现层面上是高度相似的。

因此，尽管 GRPO 是当前最流行的算法，但如今 RL 算法的变革其实只聚焦在几个核心维度：

价值函数的取舍：业界正逐渐转向直接估计优势值（advantage），因为价值函数（value function）的建模往往较为困难；
DeepSeek 的研究成果引爆了这场变革，因此人们自然从其 GRPO 算法切入探索。但本质上，这一浪潮的推动力是强化学习范式的进化，而非某个特定算法的突破。

Kimi k1.5

《Kimi k1.5》的报告内容非常丰富，论文长达 25 页。不过，其并未开放模型权重。

这篇论文报告了 Kimi k1.5 的训练实践，这是 Kimi 团队最新多模态大语言模型（LLM），采用 RL 进行训练，包括其强化学习训练技术、多模态数据配方以及基础设施优化。长上下文扩展和改进的策略优化方法是 Kimi 团队方法的核心要素，他们建立了一个简单而有效的强化学习框架，无需依赖蒙特卡洛树搜索、价值函数和过程奖励模型等更复杂的技术。

论文标题： KIMI K1.5: SCALING REINFORCEMENT LEARNING WITH LLMS
论文地址：https://arxiv.org/pdf/2501.12599

该模型在 o3-mini 发布之前就已经推出，其评估结果非常出色。

数据分布

这篇论文（以及本文后面提到的《Open Reasoner Zero》）都包含了 01 和 R1 版本所没有的对数据的讨论。Kimi 团队强调了为 RL 进行提示策划（prompt curation）的重要性。这听起来很简单，但强化学习提示集的质量和多样性在确保强化学习的有效性方面起着关键作用。由此，团队人员指出了两点与我们目前看到的大多数仅数学模型不同的地方：

多样化覆盖：提示应涵盖广泛的学科，例如 STEM、编码和一般推理，以增强模型的适应性并确保在不同领域的广泛适用性。
平衡难度：提示集应包括分布均匀的易、中、难问题，以促进渐进学习并防止过度拟合到特定的复杂程度。

在任务难度方面，Kimi 团队采用了一种与推理模型相关的较新的方法：他们采用基于模型的方法，利用模型自身的能力来适应性地评估每个提示的难度。具体来说，对于每个提示，一个经过监督微调（SFT）的模型使用相对较高的采样温度生成答案十次。然后计算通过率，并将其作为提示难度的代理（proxy）—— 通过率越低，难度越高。

此外，他们还移除了一些可能促使模型猜测而不是进行推理的问题：经验观察表明，一些复杂的推理问题可能有相对简单且容易猜测的答案，这会导致假阳性验证 —— 模型通过不正确的推理过程得出了正确答案。为了解决这一问题，他们排除了容易出现这种错误的问题，例如选择题、基于证明的问题。

训练方法

Kimi K1.5 的训练方案包含了许多有趣的细节，但随着训练技术的成熟，这些方法可能不会成为长期推荐的最佳实践。

例如，他们的初始阶段与 DeepSeek R1 论文非常相似：采用 SFT（监督微调）预热，结合长思维链（CoT）和拒绝采样（rejection sampling）。

又比如，他们重点关注数据中的行为模式，包括规划（planning）、评估（evaluation）、反思（reflection）和探索（exploration），这些对最终性能提升至关重要。

进入后续训练阶段后，他们的方法变得更加有趣：未采用 GRPO，而是使用了一种在线策略镜像下降（online policy mirror descent）的变体（仍属于策略梯度算法家族）。

除此之外，他们未使用价值函数，而是采用蒙特卡洛奖励基线（Monte Carlo reward baseline），其核心思想与 GRPO 类似，但并非直接用于优势估计（advantage）。

为了提高模型训练的稳定性和效果，研究者们采用了多种策略。其中一种策略是引入长度惩罚，即鼓励生成较短的回答，并在正确回答中惩罚较长的回答，同时明确惩罚错误答案中的长回答。这种策略有助于控制模型生成回答的长度，避免模型过度生成冗长且可能不准确的内容，从而提高训练的稳定性。尽管这种方法在训练初期可能会减慢训练速度，但研究者们会逐渐在训练过程中引入这种奖励机制，以实现更好的训练效果。

此外，研究者们还采用了数据序列策略来辅助模型学习。这种方法类似于一种明确的教学大纲，即从较简单的任务开始训练，并在训练过程中对模型表现不佳的任务进行重新采样，增加这些任务的训练频率。这种策略类似于逐步引导模型学习，类似于人类学习过程中从易到难的逐步进阶。尽管这种方法可能会增加训练的复杂性，但它被视为一种有效的技巧，可以帮助模型在训练过程中逐步提升性能。

这些方法虽然在短期内可能会增加训练的复杂性，但它们有助于模型在长期训练中保持稳定性和一致性，从而提高模型的整体性能和泛化能力。

在关于模型大小的消融研究中（尽管没有明确提及模型的具体大小），他们发现，尽管较大的模型在初始阶段表现优于较小的模型，但较小的模型通过利用强化学习（RL）优化的更长的思维链（CoTs）也能达到相当的性能。然而，较大的模型通常在 token 效率方面表现得比小模型更好。

另外，这篇论文对模型最终实用性方面的总结非常有趣，也与近期许多强化学习（RL）文献中的观点一致：如果目标是尽可能达到最佳性能，那么扩大较大模型的上下文长度具有更高的上限，并且在 token 效率方面更具优势。然而，如果测试时计算资源有限，那么训练具有较大上下文长度的小型模型可能是可行的解决方案。

论文中还详细介绍了他们的监督微调（SFT）数据集、强化学习（RL）基础设施、长思维链到短思维链的蒸馏过程。感兴趣的读者可以查看论文深入了解。

Open- reasoner - zero

这篇论文的主要贡献在于，它是第一篇展示在基础模型上通过 RL 取得非常出色结果的研究。

论文地址：https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf