专栏名称: 大模型智能
机器学习算法、深度学习算法、自然语言处理等干货知识集中营
目录
相关文章推荐
旁门左道PPT  ·  长安的荔枝这张PPT美爆了!3分钟用Ai搞定的! ·  2 天前  
辽宁文旅  ·  现场“辽”非遗 | ... ·  2 天前  
沈阳房侦探  ·  辽宁已出现暴雨!沈阳明天还有雨! ·  3 天前  
51好读  ›  专栏  ›  大模型智能

聊聊 RL 在多模态任务上复现 R1 的一些问题

大模型智能  · 公众号  ·  · 2025-05-10 00:00

正文

请到「今天看啥」查看全文


大多数文章在没有cold start sft直接进行zero RL,都会伴随着response length明显减小,但cold start sft之后后response length虽然也会减小但是很轻微。(常见于instruct model)猜测是因为cold start sft可以把format锁住,从而避免了format reward带来的response length的极速下降。instruct model经过人为对齐,base这个问题应该没有那么严重。

整体来说,也是一个tradeoff的事情,base model没有经过人工对齐,所有的knowledge和reasoning pattern都是比较原生的,RL可以发挥更大的能力,而想要从base model直接进行RL显然需要更多的scaling resources(base model、prompt set、gpu)。

而instruct模型,因为有人工构造的cot数据,经过的sft都是直接思考然后按照既定的思考方式出答案,需要看是否insturct模型advanced reasoning pattern是当前task domain所需要的。( 笔者个人觉得counting等方法并不太需要目前math的reasoning pattern )。因为sft的弱泛化性在task domain不一定能带来好效果,第二是因为直出答案的pattern / 人为设定的pattern可能使得原有适用task domain的的reasoning pattern减弱。

如果instruct的reasoning pattern不满意,要先cold-start的话,不建议混合domain gap比较大的其他reasoning pattern / skill的数据。(通 用模型/财大气粗的话就不需要考虑

因为文本模态的reasoning知识,导致会出现一些无法实际进行的reasoning step(可能是来自于之前text pretrain语料里,可以通过题干数学计算得到,但在多模态任务下,不可能进行直接测量)

图来自VisualThinker-R1
图来自VisualThinker-R1
02
kl or not kl

kl是一种限制模型探索的方式,对于参数量大的模型需求会更明显。因为模型参数量大,梯度更新会让所有参数同时forward当下batch带来的信号,从而导致一个是训练过程可能不稳定reward震荡大,第二是灾难性遗忘,在其他domain上精度下降。

3B小参数量base模型,冻结LLM或者vision encoder都会带来一定收益,且冻结vision encoder带来收益最大。说明经过VL pretrain,图像已经能理解自然图像的大部分内容,更多缺乏的是task skill,如何利用视觉信息。另外,当冻结LLM时,此时RL相当于visual prompt的llm reasoningreward来对vision encoder 产生的image-context token进行tuning,也能带来更大收益,说明当前的VL pretrain paradigm下vision和language仍然存在modality gap(粒度、对齐程度)。 按理来说两者是可以互相促进,RL相当于一种新的训练范式来提升两者能力,或许有机会左脚踩右脚,带来新一波提升,再全量放开,同时配备explore的限制,来推高模型能力?

表格来自VisualThinker-R1
表格来自VisualThinker-R1
03
response length reward






请到「今天看啥」查看全文