专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
中金固定收益研究  ·  【中金固收·信用】信用债净供给维持相对高位, ... ·  4 小时前  
广东民生DV现场  ·  吃完零食后变“小黄人”,5岁孩子被送ICU! ... ·  4 小时前  
格上财富  ·  记住你终将死去,是避免内耗的最好方法 ·  4 天前  
开平广播电视台  ·  追踪台风“蝴蝶”!开平未来天气→ ·  3 天前  
51好读  ›  专栏  ›  我爱计算机视觉

北大、阿里等提出VLM-R³: 区域识别、推理与优化 — 增强多模态思维链的视觉交互新范式

我爱计算机视觉  · 公众号  ·  · 2025-06-05 19:47

正文

请到「今天看啥」查看全文


(Region Refinement):模型能够将定位到的子图像内容(例如通过裁剪、缩放等变换获得)无缝地融入到其交错进行的视觉-文本思维链中 VLM-R³ 模型架构图

核心技术突破:区域条件强化策略优化 (R-GRPO)

VLM-R³的强大能力源于提出的 区域条件强化策略优化 (Region-Conditioned Reinforcement Policy Optimization, R-GRPO)训练范式。该方法基于Group Relative Policy Optimization (GRPO)进行了关键性适配,其"区域条件"特性体现在策略模型 显式地依赖于当前的视觉状态,包括动态整合的区域性视觉证据。

R-GRPO旨在解决模型学习"何时看"、"何处看"以及如何有效整合新视觉信息的复杂决策过程。其核心机制包括:

动态视觉信息获取策略

R-GRPO通过强化学习优化一个策略,该策略决定在推理的每一步是否需要以及在何处获取新的视觉信息(通过生成边界框指令)。

精细化的奖励机制

为了引导模型学习理想的行为,文中设计了多维度奖励信号,包括:

  • 准确性奖励 ( ):对最终答案的正确性进行奖励
  • 格式遵循奖励 (






请到「今天看啥」查看全文