首个多模态统一CoT奖励模型来了，模型、数据集、训练脚本全开源

机器之心 · 公众号 · AI · 2025-05-13 17:30

正文

挑战在于，当前缺乏高质量的多模态 CoT 奖励推理数据，传统 SFT 等训练范式难以直接教会模型掌握推理过程。

他们认为，多模态大模型本身具备深层、多维度的推理潜力，关键在于设计一套高效训练范式去激发并强化奖励模型的 “思考能力”。

二、解决方案：三阶段训练范式，逐步进化奖励模型推理能力

该研究提出一套新颖的 “三阶段” 训练框架，分为 “激发 → 巩固 → 强化”，层层推进模型的推理进化：

阶段一：冷启动激发（Cold Start）

使用仅 5K 图像生成任务的高质量 CoT 奖励推理数据，让模型学会基本的推理格式与结构。实验表明，这一阶段就能激发模型在多个视觉任务中的推理能力。

阶段二：拒绝采样巩固（Rejection Sampling）

利用冷启动后的模型在各视觉任务的泛化能力，对大规模多模态偏好数据进行推理，通过拒绝采样剔除逻辑错误样本，强化模型对正确思维链的推理模式。

阶段三：GRPO 强化（Group Relative Policy Optimization）

针对推理错误样本，引入 GRPO 强化学习机制，引导模型探索多样化推理路径，从错误中学习，逐步收敛到正确逻辑思考。

三、实验亮点：奖励模型不仅能 “显示长链推理”，还能 “隐式逻辑思考”

推荐文章

半岛晨报 · 她是一生无子的“母亲专业户”，嫁给小8岁“家暴男”，却令众多女人羡慕不已!

8 年前

高太爷 · 思维没有穷富之分，只有高下之别

8 年前

教你看穿男人的心 · 这样的女人，绝对被男人尊重和爱慕！

7 年前

Feekr旅行 · 这家国内最新悦榕庄，竟然开在世界遗产旁的云端仙境里，直接住进盛夏20度的人间天堂

7 年前

创事记 · 孙宏斌：想做大买卖，就不能算计

7 年前