专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
数局  ·  解数咨询:2024年保健品行业复盘 ·  13 小时前  
数局  ·  红餐:2025年卤味品类发展报告 ·  2 天前  
51好读  ›  专栏  ›  数据派THU

R1-Zero的无监督版本来了!SFT不再是必须,EMPO重新定义大模型推理微调

数据派THU  · 公众号  · 大数据  · 2025-06-06 17:00

正文

请到「今天看啥」查看全文



任务通用性:每轮迭代中,从当前策略模型中采样生成多个回答,通过语义等价性构建聚类,用语义簇概率作为奖励信号驱动学习,可适用于数学外的通用推理任务。在语义层面持续最小化回答的不确定性(熵),突破格式固定答案的限制。


为实现语义熵最小化,EMPO 通过最大化下述策略:

图片

需要指出的是,相较于 GRPO 几乎没有 reward hacking 空间的基于回答正确性的奖励,无监督的熵目标在优化过程中可能存在被“投机取巧”利用的风险。例如,模型可能会倾向于过度拟合那些具有高置信度的常见回复模式(例如总是简单的回复 “I don’t know”),以获取更高的奖励,而不真正进行深入推理。


为应对这一问题,文章提出了一种简单的熵阈值控制策略:通过设置双阈值(即 ),仅对不确定性处于适中范围的提示进行优化,从而避免模型对于过简单过困难问题的优化。







请到「今天看啥」查看全文