专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
爱可可-爱生活  ·  【[13星]OpenThinkIMG:让AI ... ·  12 小时前  
爱可可-爱生活  ·  【[443星]imprecv:一个简洁高效的 ... ·  20 小时前  
java1234  ·  大模型行情变了,差别真的挺大。。。 ·  2 天前  
java1234  ·  大模型行情变了,差别真的挺大。。。 ·  2 天前  
黄建同学  ·  论文《From Tokens to ... ·  2 天前  
爱可可-爱生活  ·  【[145星]Rensa:高性能的MinHa ... ·  2 天前  
51好读  ›  专栏  ›  爱可可-爱生活

本文通过建立扩散模型引导与强化学习策略改进之间的理论联系,提出了-20250602060701

爱可可-爱生活  · 微博  · AI  · 2025-06-02 06:07

正文

请到「今天看啥」查看全文


本文通过建立扩散模型引导与强化学习策略改进之间的理论联系,提出了CFGRL框架,该框架以监督学习的简易性进行训练,通过在采样时可控地增强对“最优性”的条件引导(无需额外学习价值函数,尤其在GCBC场景),能够有效提升策略表现至超越原始数据水平,并在实验中显著优于AWR和标准GCBC。






请到「今天看啥」查看全文