主要观点总结
本文主要介绍了OpenAI推出的o3推理模型的多模态能力,能够实现将图像直接融入推理过程。同时介绍了小红书团队联合西安交通大学采用端到端强化学习激发大模型“以图深思”潜能所构建的DeepEyes模型,实现了与o3类似的能力,并已同步开源相关技术细节。文章还探讨了多模态模型的思考方式以及DeepEyes模型的优势。
关键观点总结
关键观点1: OpenAI推出的o3推理模型打破传统文字思维链边界,首次实现多模态模型将图像直接融入推理过程。
o3不仅能“看图”,还能“用图思考”,开启了视觉与文本推理深度融合的问题求解方式。
关键观点2: DeepEyes模型具备与o3类似的能力,采用端到端强化学习,在不依赖监督微调的前提下,激发大模型“以图深思”的潜能。
DeepEyes构建了多模态深度思考模型,同步开源了相关技术细节,让“用图像思考”不再是OpenAI专属。
关键观点3: 多模态模型的“边看边想”思考方式优于传统的“先看后想”方式。
这种思考方式使模型在推理过程中能够动态地调用图像信息,结合视觉与语言的交替交互,增强对细节的感知与理解。
关键观点4: DeepEyes模型在多个测试集上表现出色,尤其在视觉搜索任务中展现出领先优势。
其性能评估结果显示,DeepEyes在无需调用任何外部工具的情况下,具备出色的图像定位与理解能力。
关键观点5: DeepEyes模型具备独特优势,如训练更简洁、更强泛化能力、端到端联合优化、深度多模态融合和原生工具调用能力等。
这些优势使得DeepEyes能够在不同任务中动态选择推理路径,实现视觉与文本的深度融合。
正文
DeepEyes 与 o3 的推理流程对比
我们使用与 OpenAI o3 官方评测中相同的图像进行测试。测试用户提出问题 “What is written on the sign?”(牌子上写了什么?),DeepEyes 展现出与 o3 类似的 “用图像思考” 的能力,整个过程可分为三步:
第一步:全局视觉分析
模型快速扫描图像,利用自身的视觉感知能力精准锁定画面中的矩形牌子区域,并识别其为文字信息载体。
第二步:智能工具调用
鉴于原图中文字区域分辨率较低,模型自主决策调用图像缩放工具,生成边界框并裁剪放大目标区域,使内容清晰可辨。
第三步:细节推理识别
在清晰图像的基础上,模型结合视觉和文本推理能力,准确识别并输出牌子上的文字:Ochsner URGENT CARE。
整个流程无需依赖任何外部 OCR 工具,纯粹通过模型内部的定位、变换和推理完成识别任务,充分展示了 DeepEyes 原生的 “看图思考” 能力。
DeepEyes:激发模型原生的用图像思考能力
一、模型结构
DeepEyes 的架构与传统多模态推理模型一致,但在推理流程上引入了 “自驱动视觉聚焦” 机制。推理起始阶段,模型首先基于文本内容构建初步思维链。例如,在判断 “手机与背包的位置关系” 这一问题时,模型会生成内部推理如:“需要确定手机与背包的位置,可能需在图像中定位相关物体”。随后,模型根据推理进展判断是否需要图像辅助信息。若问题涉及小物体、模糊区域或细节不清晰的区域,模型将自主生成边界框坐标,裁剪图像中可能包含关键信息的区域(如手机和背包位置),并聚焦这些区域进行深入分析。裁剪图像随后以自回归方式重新输入模型,作为新的视觉证据,与现有文本推理共同作用,驱动后续推理过程更加准确、具备视觉上下文感知能力。
二、如何获得用图像进行思考的能力?从生物进化的角度进行思考