仅需1个数据，就能让大模型的数学推理性能大大增强？

机器之心 · 公众号 · AI · 2025-05-09 17:02

正文

请到「今天看啥」查看全文

论文发现，只在 RLVR 训练中使用一个训练数据（称作 1-shot RLVR），就可以在 MATH500 上，将 Qwen2.5-Math-1.5B 的表现从 36.0% 提升到 73.6%，以及把 Qwen2.5-Math-7B 的表现从 51.0% 提升到 79.2% 。

这个表现和使用 1.2k 数据集（包括这一个数据）的 RLVR 效果差不多。使用两个训练样本的 RLVR 甚至略微超过了使用 1.2k 数据集（称作 DSR-sub）的表现，和使用 7.5k MATH 训练集的 RLVR 表现相当。这种表现可以在 6 个常用的数学推理任务上都可以观察到。

这种利用一个数学训练数据的 1-shot RLVR 激发的推理能力甚至可以拓展到非数学的推理任务上，如 ARC-Easy/Challenge。

背景介绍

在这项工作中，论文使用了包含 policy gradient loss ，KL divergence loss 以及 entropy loss 三项损失函数。这里 policy loss 使用 GRPO 格式的损失函数，对应是否解决数学题的 0-1 结果奖励；KL loss 用于保持模型在一般任务上的语言质量；而 entropy loss（系数为负）用于鼓励模型产生更加多样化的推理模式。

对于数据选择，研究者使用一个叫 historical variance score 的指标来将数据池（前面提到的 1.2k DSR-sub 数据集）中的数据来排序，为了优先选择在模型训练过程中准确度方差较大的那些数据。不过论文强调这种数据选择并不一定是最优的，只是为了更好的说明现象。而且 1-shot RLVR 对很多 historical variance score 不那么高的数据也能生效，可能是更通用的现象。

此外，研究者还发现让 1-shot RLVR 表现的很好的数据其实都不是特别困难。初始模型就已经有一定的概率可以解决。

实验观察

通过 1-shot RLVR，论文还发现了很多有趣的现象：