正文
论文发现,只在 RLVR 训练中使用一个训练数据(称作 1-shot RLVR),就可以在 MATH500 上,将 Qwen2.5-Math-1.5B 的表现从 36.0% 提升到 73.6%,以及把 Qwen2.5-Math-7B 的表现从 51.0% 提升到 79.2% 。
这个表现和使用 1.2k 数据集(包括这一个数据)的 RLVR 效果差不多。
使用两个训练样本的 RLVR 甚至略微超过了使用 1.2k 数据集(称作 DSR-sub)的表现,和使用 7.5k MATH 训练集的 RLVR 表现相当。这种表现可以在 6 个常用的数学推理任务上都可以观察到。
这种利用一个数学训练数据的 1-shot RLVR 激发的推理能力甚至可以拓展到非数学的推理任务上,如 ARC-Easy/Challenge。
背景介绍
在这项工作中,论文使用了包含 policy gradient loss ,KL divergence loss 以及 entropy loss 三项损失函数。这里 policy loss 使用 GRPO 格式的损失函数,对应是否解决数学题的 0-1 结果奖
励;KL loss 用于保持模型在一般任务上的语言质量;而 entropy loss(系数
为负)用于鼓励模型产生更加多样化的推理模式。
对于数据选择,研究者使用一个叫 historical variance score 的指标来将数据池(前面提到的 1.2k DSR-sub 数据集)中的数据来排序,为了优先选择在模型训练过程中准确度方差较大的那些数据。不过论文强调这种数据选择并不一定是最优的,只是为了更好的说明现象。而且 1-shot RLVR 对很多 historical variance score 不那么高的数据也能生效,可能是更通用的现象。
此外,研究者还发现让 1-shot RLVR 表现的很好的数据其实都不是特别困难。初始模型就已经有一定的概率可以解决。
实验观察
通过 1-shot RLVR,论文还发现了很多有趣的现象: