专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
有方空间  ·  Heatherwick在亚洲:人本化的创想| ... ·  2 天前  
建E室内设计网  ·  建E首发 | 德通×靳朝晖设计:场域精神 ... ·  3 天前  
建E室内设计网  ·  IDD哲人堂 许京军 | ... ·  2 天前  
有方空间  ·  长沙奥体中心,实施方案多图首公开 / ... ·  4 天前  
51好读  ›  专栏  ›  我爱计算机视觉

小红书Hi Lab联合西安交大提出 DeepEyes,探索 O3「Thinking with Ima...

我爱计算机视觉  · 公众号  ·  · 2025-06-07 11:02

正文

请到「今天看啥」查看全文


第三步:细节推理识别

在清晰图像的基础上,模型深度融合视觉特征提取与文本语义推理能力,准确识别并输出牌子上的文字:「Ochsner URGENT CARE。」

值得关注的是,该全流程完全由模型内部自主完成,无需借助任何外部 OCR 工具,真正实现了从图像定位、内容变换到语义识别的原生闭环推理 ,充分展示了 DeepEyes 强大的 “看图思考” 实力。

02 背景介绍

视觉语言模型(VLMs)借助长思维链(CoT)实现多模态深度推理,但仍以文本推理为主,思维过程局限于语言模态。人类则自然融合视觉与认知进行图像化思考,辅助精准决策。虽有研究尝试将视觉信息融入思维链推理,但模块化设计存在性能不足问题。OpenAI 的 o3 模型将视觉信息作为动态元素整合进思维链,实现类似人类 “用图像思考”,突破语言模态限制。它自然交织文本思维链与图像操作工具,为计算扩展提供新思路,是多模态推理的重要突破,但技术细节尚未开源。

因此,我们提出了多模态大语言模型 DeepEyes,通过端到端强化学习自然涌现 “用图像思考” 能力,无需依赖独立的专用模型专用模型及监督微调(SFT)。DeepEyes将视觉定位能力集成于图像缩放工具中,使其能够主动从原始图像中收集信息,实现了视觉与文本推理深度融合的交织多模态思维链(iMCoT)。

我们的主要贡献包括:

  • 基于端到端强化学习,激励并增强模型 ”用图像思考“的能力,实现了视觉与文本推理无缝融合,摆脱了冷启动监督微调(SFT)及外部独立专用模型的依赖。

  • 为更有效地促进模型的推理行为,我们结合了两种策略:面向工具使用的数据选择机制,以及工具使用奖励策略。实验结果表明,这两个策略均对iMCoT的发展产生了显著推动作用。

  • 我们揭示了iMCoT在强化学习训练过程中的演变动态:工具调用行为从初始的探索阶段逐步发展至高效精准的工具利用阶段。此外,我们还观察到了视觉搜索、比较和验证等多种推理模式。

03 方法

3.1 模型细节

DeepEyes 架构与传统多模态推理模型相似,但在推理流程中引入 “自驱动视觉聚焦” 机制。推理初始,模型基于文本构建初步思维链(如判断 “手机与背包位置关系” 时,生成 “需定位物体” 的内部推理)。随后,模型根据推理需求判断是否调用图像辅助 —— 若问题涉及小物体、模糊区域等细节,会自主生成边界框裁剪关键区域(如手机和背包位置),将裁剪图像作为新视觉证据自回归输入模型,与文本推理融合驱动后续精准推理,增强视觉上下文感知能力。

与以往基于工作流程或纯文本推理的研究相比,我们的 iMCoT 具有以下显著优势:

  • 训练简洁性。仅需问答对即可完成训练,无需依赖难以获取的监督微调(SFT)数据,大幅降低数据收集复杂度。

  • 更强的泛化能力。通过强化学习动态学习跨任务最优推理流程,突破任务特定的人工设计约束,适应新任务能力显著提升。

  • 统一端到端优化。端到端训练实现组件联合优化,避免传统方法中组件单独优化导致的性能次优问题,确保全局性能最优。

  • 深度多模态融合。自然交织视觉与文本信息,实现视觉元素与文本推理无缝结合,支持更精准的感知决策。

  • 原生工具调用能力。"用图像思考"作为模型的原生能力,可直接优化工具利用的效率与准确性,突破传统推理范式限制。







请到「今天看啥」查看全文