专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

仅需1个数据,就能让大模型的数学推理性能大大增强?

机器之心  · 公众号  · AI  · 2025-05-09 17:02

正文

请到「今天看啥」查看全文


论文发现,只在 RLVR 训练中使用一个训练数据(称作 1-shot RLVR),就可以在 MATH500 上,将 Qwen2.5-Math-1.5B 的表现从 36.0% 提升到 73.6%,以及把 Qwen2.5-Math-7B 的表现从 51.0% 提升到 79.2% 。


这个表现和使用 1.2k 数据集(包括这一个数据)的 RLVR 效果差不多。 使用两个训练样本的 RLVR 甚至略微超过了使用 1.2k 数据集(称作 DSR-sub)的表现,和使用 7.5k MATH 训练集的 RLVR 表现相当。这种表现可以在 6 个常用的数学推理任务上都可以观察到。



这种利用一个数学训练数据的 1-shot RLVR 激发的推理能力甚至可以拓展到非数学的推理任务上,如 ARC-Easy/Challenge。



背景介绍


在这项工作中,论文使用了包含 policy gradient loss ,KL divergence loss 以及 entropy loss 三项损失函数。这里 policy loss 使用 GRPO 格式的损失函数,对应是否解决数学题的 0-1 结果奖 励;KL loss 用于保持模型在一般任务上的语言质量;而 entropy loss(系数 为负)用于鼓励模型产生更加多样化的推理模式。


对于数据选择,研究者使用一个叫 historical variance score 的指标来将数据池(前面提到的 1.2k DSR-sub 数据集)中的数据来排序,为了优先选择在模型训练过程中准确度方差较大的那些数据。不过论文强调这种数据选择并不一定是最优的,只是为了更好的说明现象。而且 1-shot RLVR 对很多 historical variance score 不那么高的数据也能生效,可能是更通用的现象。


此外,研究者还发现让 1-shot RLVR 表现的很好的数据其实都不是特别困难。初始模型就已经有一定的概率可以解决。



实验观察


通过 1-shot RLVR,论文还发现了很多有趣的现象:







请到「今天看啥」查看全文


推荐文章
腾讯新国风  ·  农历三月初三:宜认真相爱 缓慢生活
8 年前
超神助手  ·  【污~~发车啦】周末我要撸一天!
8 年前
激光制造网LaserfairCom  ·  3D打印前景可期 成推动产品开发的新替代品
7 年前
钟正生经济分析  ·  国内宏观周报:“供需双杀”更趋明显
7 年前
Pegs  ·  成长里那些必然的抗争
7 年前