专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
宝玉xp  ·  //@想不出昵称的Rudy:赞同,因为AI, ... ·  2 天前  
黄建同学  ·  揭秘 Antropic ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

机器之心  · 公众号  · AI  · 2025-06-01 11:30

正文

请到「今天看啥」查看全文



但近日的一项研究成果却给出了一个惊人的发现:「SFT 可能会阻碍学习 —— 经常导致出现伪推理路径,而 RL 则是在促进真正的多模态推理!」



这个发现来自加州大学圣克鲁兹分校和德克萨斯大学达拉斯分校等机构的一个研究团队,他们深入探讨了「SFT+RL」这一经典范式在视觉语言模型开发中的适用性,其中重点关注了两个核心问题:1)SFT 与 RL 在多模态推理中分别产生何种独特作用?2)这种两阶段训练对 LVLM 的推理能力是否确有必要?



  • 论文标题: SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models

  • 论文地址:https://arxiv.org/pdf/2504.11468

  • 项目页面:https://ucsc-vlaa.github.io/VLAA-Thinking/


为系统性地研究这些问题,研究者构建了首个支持 SFT 与 RL 的全方位高质量图文推理数据集 VLAA-Thinking。下表给出了该数据集的统计数据。



与现有数据集不同,该数据集包含基于 R1 模型「先思考后回答」范式生成的完整推理链条,其中 SFT 分支包含适合视觉指令调优的多模态思维链(CoT)样本,强化学习分支则从同源数据中筛选更具挑战性的样本以激发深度推理行为。


为有效迁移纯文本模型的推理能力,研究者设计了六阶段数据处理流程:元数据收集→图像描述生成→基于 R1 的知识蒸馏→答案重写→人工验证→数据划分。


具体而言,他们将图像描述和视觉问题输入 DeepSeek-R1 生成初始推理轨迹,经改写优化流畅度后,再由 GPT 验证器进行质量把关,最终形成高质量的 SFT 与 RL 训练数据。


意料之外的发现


基于 VLAA-Thinking 数据集,研究者系统分析了 SFT 与 RL 在多模态推理中的作用机制。为探究 SFT 的影响,他们详细考察了数据类型(如是否包含反思性顿悟时刻,即 aha moment)、数据规模和模型能力等因素。


针对视觉语境下的 RL 优化,他们在 GRPO 框架中创新性地设计了融合感知与认知奖励的混合奖励函数,包含 2 大类 5 种子函数:规则类问题采用数字识别、多项选择题、数学运算和边界框检测函数,开放类问题则采用称职的奖励模型 XComposer-2.5-RM,以及基于参考的奖励方法来对答案进行评分。


研究者对 SFT 和 RL 进行了广泛的实验比较,发现了几个值得注意的问题:


首先,他们探究了 SFT 和 RL 在多模态推理中的贡献:与基础模型相比,SFT 提高了模型在标准任务中的性能,但在增强复杂推理方面能力却有所欠缺。如图 1 所示,仅仅通过 SFT 来模仿专家的思维往往会诱发「伪推理路径」,这是一种肤浅的推理模式,其中可能包含「伪 aha moment」(肤浅的自我反思线索)。







请到「今天看啥」查看全文