聊聊 RL 在多模态任务上复现 R1 的一些问题

大模型智能 · 公众号 · · 2025-05-10 00:00

正文

请到「今天看啥」查看全文

大多数文章在没有cold start sft直接进行zero RL，都会伴随着response length明显减小，但cold start sft之后后response length虽然也会减小但是很轻微。（常见于instruct model）猜测是因为cold start sft可以把format锁住，从而避免了format reward带来的response length的极速下降。instruct model经过人为对齐，base这个问题应该没有那么严重。

整体来说，也是一个tradeoff的事情，base model没有经过人工对齐，所有的knowledge和reasoning pattern都是比较原生的，RL可以发挥更大的能力，而想要从base model直接进行RL显然需要更多的scaling resources（base model、prompt set、gpu）。

而instruct模型，因为有人工构造的cot数据，经过的sft都是直接思考然后按照既定的思考方式出答案，需要看是否insturct模型advanced reasoning pattern是当前task domain所需要的。（ 笔者个人觉得counting等方法并不太需要目前math的reasoning pattern ）。因为sft的弱泛化性在task domain不一定能带来好效果，第二是因为直出答案的pattern / 人为设定的pattern可能使得原有适用task domain的的reasoning pattern减弱。

如果instruct的reasoning pattern不满意，要先cold-start的话，不建议混合domain gap比较大的其他reasoning pattern / skill的数据。（通 用模型/财大气粗的话就不需要考虑 ）

因为文本模态的reasoning知识，导致会出现一些无法实际进行的reasoning step（可能是来自于之前text pretrain语料里，可以通过题干数学计算得到，但在多模态任务下，不可能进行直接测量）

kl or not kl

kl是一种限制模型探索的方式，对于参数量大的模型需求会更明显。因为模型参数量大，梯度更新会让所有参数同时forward当下batch带来的信号，从而导致一个是训练过程可能不稳定reward震荡大，第二是灾难性遗忘，在其他domain上精度下降。

3B小参数量base模型，冻结LLM或者vision encoder都会带来一定收益，且冻结vision encoder带来收益最大。说明经过VL pretrain，图像已经能理解自然图像的大部分内容，更多缺乏的是task skill，如何利用视觉信息。另外，当冻结LLM时，此时RL相当于visual prompt的llm reasoningreward来对vision encoder 产生的image-context token进行tuning，也能带来更大收益，说明当前的VL pretrain paradigm下vision和language仍然存在modality gap（粒度、对齐程度）。按理来说两者是可以互相促进，RL相当于一种新的训练范式来提升两者能力，或许有机会左脚踩右脚，带来新一波提升，再全量放开，同时配备explore的限制，来推高模型能力？