专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
爱可可-爱生活  ·  【[309星]awesome-claude- ... ·  10 小时前  
爱可可-爱生活  ·  【[71星]Awesome-VLA-RL:汇 ... ·  昨天  
爱可可-爱生活  ·  【[198星]DeskHog:一款开源的3D ... ·  昨天  
Web3天空之城  ·  英伟达CEO黄仁勋在巴黎VivaTech ... ·  2 天前  
Web3天空之城  ·  英伟达CEO黄仁勋在巴黎VivaTech ... ·  2 天前  
爱可可-爱生活  ·  【[216星]chonkie-ts:用Typ ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

DanceGRPO:首个统一视觉生成的强化学习框架

机器之心  · 公众号  · AI  · 2025-05-14 16:30

主要观点总结

本文介绍了由字节跳动Seed和香港大学联合完成的研究项目,推出了名为DanceGRPO的创新框架,该框架旨在统一视觉生成强化学习的解决方案。DanceGRPO实现了单一强化学习算法在两大生成范式、三项任务、四项基本模型和五类奖励模型中的全面覆盖。文章介绍了研究动机、目前主流方案存在的问题、实现目标、DanceGRPO的核心贡献、方案设计、实验过程和实验结果等。

关键观点总结

关键观点1: 研究背景与动机

随着生成式AI的快速发展,RLHF逐渐受到关注,特别是在LLM领域的应用。对于视觉生成任务,RLHF对美感等指标具有决定性影响。但目前的主流方案还存在一些问题,如DPO对模型效果微弱,ReFL在面临大规模视频生成时显存压力大等。

关键观点2: DanceGRPO框架的特点

DanceGRPO是首个视觉生成+强化学习的大一统框架,可应用于diffusion和rectified flow,覆盖文生图、文生视频、图生视频三类任务。它在多个foundation model和reward model上进行了测试,并实现了显著的效果提升。

关键观点3: 实验设计与实现

实验设计遵循了DeepSeek的GRPO策略,使用prompt生成数据并用GRPO目标函数进行优化。核心思路是跟随DeepSeek的GRPO策略,去除KL散度正则项。在实验过程中,发现了一些关键要素,如初始化噪声的一致性、timesteps的采样子集、多个reward model的叠加等。

关键观点4: 实验结果

实验使用了HPS-v2.1和Clip score来优化模型,并在文生图、文生视频和图生视频上进行了测试。结果显示,DanceGRPO在提升reward的同时,也面临一些挑战,如在i2v任务中使用视觉美感reward model时容易发散。


正文

请到「今天看啥」查看全文



2. ReFL:这一类方案是 diffusion/rectified flow 所专有的,思路非常简单直接,就是直接在 z_t 步下直接预测 z_0 的结果,然后 vae 去 decode 直接送进 reward model 去直接反向传播进行优化。这一类方案在图像上效果很明显,但是因为要对 reward model 和 decode 后的 features 进行反向传播,在面对 100 帧以上的视频生成的时候显存压力很大。而且,目前 LLM 和 diffusion 联合训练已成为大势所驱,ReFL 这种通过建模 z_t 和 z_0 的关系,并且直接反向传播的方式,似乎和这一类模型的建模策略有着很大的 gap。


于是,利用强化学习对模型进行优化的思路也就呼之欲出了,之前社区也对强化学习优化生成模型有过一些探索,例如 DDPO 和 DPOK,但是他们都有很强的局限性:


1. 尝试的数据集非常小,一般小于 100 个 prompts,

2. 只针对文生图 diffusion model 进行了测试,并没有涉及到目前流行的 rectified flow 和视频生成模型


实现目标


于是,我们的目标也呼之欲出,我们的强化学习算法需要满足以下特征:


1. 提升明显,reward 上涨的足够多

2. 在 video 上实现的时候显存压力不能大,即,不能直接反向传播 reward model 和 vae

3. 能在大型 prompt 数据集上训练

4. 能迁移到 rectified flow 和视频生成模型


DanceGRPO


核心贡献


我们是 第一个视觉生成 + 强化学习的大一统框架







请到「今天看啥」查看全文