本文通过将可验证奖励强化学习(RLVR)分解为正负样本强化(PSR & NSR),惊人地发现仅使用负样本强化(NSR)便能高效提升大型语言模型的数学推理能力,其效果甚至匹敌或超越传统RL算法,并通过梯度分析揭示NSR能有效利用模型先验知识在抑制错误的同时保持多样性,最终提出Weighted-REINFORCE方法平衡了准确性与探索性。
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师 |
![]() |
爱可可-爱生活 · 晚安~ #晚安# -20250607232551 · 20 小时前 |
![]() |
爱可可-爱生活 · 【[110星]sparse_transfor ... · 昨天 |
![]() |
爱可可-爱生活 · #听见微博# #微博声浪计划# ... · 昨天 |
|
机器学习研究组订阅 · RLHF已死,RLVR引爆AGI革命!Cla ... · 昨天 |
![]() |
黄建同学 · 这个动手是我理解的动手嘛//@才高八阿斗:笑 ... · 2 天前 |
![]() |
爱可可-爱生活 · 晚安~ #晚安# -20250607232551 20 小时前 |
![]() |
爱可可-爱生活 · 【[110星]sparse_transformers:为Tran-20250607171914 昨天 |
![]() |
爱可可-爱生活 · #听见微博# #微博声浪计划# 本期“TAI快报”深入探讨了五篇-20250607175313 昨天 |
|
机器学习研究组订阅 · RLHF已死,RLVR引爆AGI革命!Claude 4核心成员万字对谈 昨天 |
![]() |
黄建同学 · 这个动手是我理解的动手嘛//@才高八阿斗:笑死//@来去之间:/-20250606075940 2 天前 |
|
南都周刊 · 我是潮汕籍拉拉,妈妈问了我三次“是不是弯的” 8 年前 |
|
那一座城 · 印度丨学拉野屎,做有尊严的阿三。 8 年前 |
|
24小时全球守望祷告中心 · 我们是一家人(代祷)2017.5.31 8 年前 |
|
比特币中国 · 活跃用户已超300万人次,加密资产市场前景一片光明! 7 年前 |
|
世界金属导报 · 英媒:废钢回收利用增加 中国对铁矿石需求或下降 7 年前 |