正文
这里需要把握的核心认知是:当前使用的所有 RL 算法在实现层面上是高度相似的。
因此,尽管 GRPO 是当前最流行的算法,但如今 RL 算法的变革其实只聚焦在几个核心维度:
Kimi k1.5
《Kimi k1.5》的报告内容非常丰富,论文长达 25 页。不过,其并未开放模型权重。
这篇论文报告了 Kimi k1.5 的训练实践,这是 Kimi 团队最新多模态大语言模型(LLM),采用 RL 进行训练,包括其强化学习训练技术、多模态数据配方以及基础设施优化。长上下文扩展和改进的策略优化方法是 Kimi 团队方法的核心要素,他们建立了一个简单而有效的强化学习框架,无需依赖蒙特卡洛树搜索、价值函数和过程奖励模型等更复杂的技术。
该模型在 o3-mini 发布之前就已经推出,其评估结果非常出色。
数据分布
这篇论文(以及本文后面提到的《Open Reasoner Zero》)都包含了 01 和 R1 版本所没有的对数据的讨论。Kimi 团队强调了为 RL 进行提示策划(prompt curation)的重要性。这听起来很简单,但强化学习提示集的质量和多样性在确保强化学习的有效性方面起着关键作用。由此,团队人员指出了两点与我们目前看到的大多数仅数学模型不同的地方:
在任务难度方面,Kimi 团队采用了一种与推理模型相关的较新的方法: 他们采用基于模型的方法,利用模型自身的能力来适应性地评估每个提示的难度。具体来说,对于每个提示,一个经过监督微调(SFT)的模型使用相对较高的采样温度生成答案十次。然后计算通过率,并将其作为提示难度的代理(proxy)—— 通过率越低,难度越高。
此外,他们还移除了一些可能促使模型猜测而不是进行推理的问题: 经验观察表明,一些复杂的推理问题可能有相对简单且容易猜测的答案,这会导致假阳性验证 —— 模型通过不正确的推理过程得出了正确答案。为了解决这一问题,他们排除了容易出现这种错误的问题,例如选择题、基于证明的问题。
训练方法
Kimi K1.5 的训练方案包含了许多有趣的细节,但随着训练技术的成熟,这些方法可能不会成为长期推荐的最佳实践。
例如,他们的初始阶段与 DeepSeek R1 论文非常相似:采用 SFT(监督微调)预热,结合长思维链(CoT)和拒绝采样(rejection sampling)。
又比如,他们重点关注数据中的行为模式,包括规划(planning)、评估(evaluation)、反思(reflection)和探索(exploration),这些对最终性能提升至关重要。
进入后续训练阶段后,他们的方法变得更加有趣:未采用 GRPO,而是使用了一种在线策略镜像下降(online policy mirror descent) 的变体(仍属于策略梯度算法家族)。
除此之外,他们未使用价值函数,而是采用蒙特卡洛奖励基线(Monte Carlo reward baseline),其核心思想与 GRPO 类似,但并非直接用于优势估计(advantage)。
为了提高模型训练的稳定性和效果,研究者们采用了多种策略。其中一种策略是引入长度惩罚,即鼓励生成较短的回答,并在正确回答中惩罚较长的回答,同时明确惩罚错误答案中的长回答。这种策略有助于控制模型生成回答的长度,避免模型过度生成冗长且可能不准确的内容,从而提高训练的稳定性。尽管这种方法在训练初期可能会减慢训练速度,但研究者们会逐渐在训练过程中引入这种奖励机制,以实现更好的训练效果。
此外,研究者们还采用了数据序列策略来辅助模型学习。这种方法类似于一种明确的教学大纲,即从较简单的任务开始训练,并在训练过程中对模型表现不佳的任务进行重新采样,增加这些任务的训练频率。这种策略类似于逐步引导模型学习,类似于人类学习过程中从易到难的逐步进阶。尽管这种方法可能会增加训练的复杂性,但它被视为一种有效的技巧,可以帮助模型在训练过程中逐步提升性能。
这些方法虽然在短期内可能会增加训练的复杂性,但它们有助于模型在长期训练中保持稳定性和一致性,从而提高模型的整体性能和泛化能力。
在关于模型大小的消融研究中(尽管没有明确提及模型的具体大小),他们发现,尽管较大的模型在初始阶段表现优于较小的模型,但较小的模型通过利用强化学习(RL)优化的更长的思维链(CoTs)也能达到相当的性能。然而,较大的模型通常在 token 效率方面表现得比小模型更好。
另外,这篇论文对模型最终实用性方面的总结非常有趣,也与近期许多强化学习(RL)文献中的观点一致: 如果目标是尽可能达到最佳性能,那么扩大较大模型的上下文长度具有更高的上限,并且在 token 效率方面更具优势。然而,如果测试时计算资源有限,那么训练具有较大上下文长度的小型模型可能是可行的解决方案。
论文中还详细介绍了他们的监督微调(SFT)数据集、强化学习(RL)基础设施、长思维链到短思维链的蒸馏过程。感兴趣的读者可以查看论文深入了解。
Open- reasoner - zero
这篇论文的主要贡献在于,它是第一篇展示在基础模型上通过 RL 取得非常出色结果的研究。
论文地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf