专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源

机器之心  · 公众号  · AI  · 2025-05-13 17:30

正文

请到「今天看啥」查看全文



挑战在于,当前缺乏高质量的多模态 CoT 奖励推理数据,传统 SFT 等训练范式难以直接教会模型掌握推理过程。


他们认为,多模态大模型本身具备深层、多维度的推理潜力,关键在于设计一套高效训练范式去激发并强化奖励模型的 “思考能力”。



二、解决方案:三阶段训练范式,逐步进化奖励模型推理能力


该研究提出一套新颖的 “三阶段” 训练框架,分为 “激发 → 巩固 → 强化”,层层推进模型的推理进化:


阶段一:冷启动激发(Cold Start)


使用仅 5K 图像生成任务的高质量 CoT 奖励推理数据,让模型学会基本的推理格式与结构。实验表明,这一阶段就能激发模型在多个视觉任务中的推理能力。


阶段二:拒绝采样巩固(Rejection Sampling)


利用冷启动后的模型在各视觉任务的泛化能力,对大规模多模态偏好数据进行推理,通过拒绝采样剔除逻辑错误样本,强化模型对正确思维链的推理模式。


阶段三:GRPO 强化(Group Relative Policy Optimization)


针对推理错误样本,引入 GRPO 强化学习机制,引导模型探索多样化推理路径,从错误中学习,逐步收敛到正确逻辑思考。


三、实验亮点:奖励模型不仅能 “显示长链推理”,还能 “隐式逻辑思考”








请到「今天看啥」查看全文