专栏名称: 爱可可-爱生活

知名互联网资讯博主北邮PRIS模式识别实验室陈老师

目录

相关文章推荐

爱可可-爱生活 · 晚安～ #晚安# -20250607232551 · 20 小时前

爱可可-爱生活 · 【[110星]sparse_transfor ... · 昨天

爱可可-爱生活 · #听见微博# #微博声浪计划# ... · 昨天

机器学习研究组订阅 · RLHF已死，RLVR引爆AGI革命！Cla ... · 昨天

黄建同学 · 这个动手是我理解的动手嘛//@才高八阿斗:笑 ... · 2 天前

51好读 › 专栏 › 爱可可-爱生活

本文通过将可验证奖励强化学习（RLVR）分解为正负样本强化（PS-20250604054456

爱可可-爱生活 · 微博 · AI · 2025-06-04 05:44

正文

请到「今天看啥」查看全文

本条微博链接

本文通过将可验证奖励强化学习（RLVR）分解为正负样本强化（PSR & NSR），惊人地发现仅使用负样本强化（NSR）便能高效提升大型语言模型的数学推理能力，其效果甚至匹敌或超越传统RL算法，并通过梯度分析揭示NSR能有效利用模型先验知识在抑制错误的同时保持多样性，最终提出Weighted-REINFORCE方法平衡了准确性与探索性。

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · 晚安～ #晚安# -20250607232551

20 小时前

爱可可-爱生活 · 【[110星]sparse_transformers：为Tran-20250607171914

昨天

爱可可-爱生活 · #听见微博# #微博声浪计划# 本期“TAI快报”深入探讨了五篇-20250607175313

昨天

机器学习研究组订阅 · RLHF已死，RLVR引爆AGI革命！Claude 4核心成员万字对谈

昨天

黄建同学 · 这个动手是我理解的动手嘛//@才高八阿斗:笑死//@来去之间:/-20250606075940

2 天前

南都周刊 · 我是潮汕籍拉拉，妈妈问了我三次“是不是弯的”

8 年前

那一座城 · 印度丨学拉野屎，做有尊严的阿三。

8 年前

24小时全球守望祷告中心 · 我们是一家人（代祷）2017.5.31

8 年前

比特币中国 · 活跃用户已超300万人次，加密资产市场前景一片光明！

7 年前

世界金属导报 · 英媒：废钢回收利用增加中国对铁矿石需求或下降

7 年前

移动版

51好读 - 微信公众号文章