专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max

机器之心  · 公众号  · AI  · 2025-05-25 11:51

正文

请到「今天看啥」查看全文



来自剑桥、伦敦大学学院、谷歌的研究团队认为: 语言不一定始终是进行推理最自然或最有效的模态,尤其是在涉及空间与几何信息的任务场景中



基于此动因,研究团队提出了一种全新的推理与规划范式 —— 视觉规划(Visual Planning)。该范式完全基于视觉表示进行规划,完全独立于文本模态



  • 论文标题:Visual Planning: Let’s Think Only with Images

  • 论文地址:https://arxiv.org/pdf/2505.11409

  • 代码仓库:https://github.com/yix8/VisualPlanning


在这一框架下,规划通过一系列图像按步编码视觉域内的推理过程,类似于人类通过草图或想象视觉图景来计划未来行为的方式。


推理范式的对比。传统方法(上方与中间两行)倾向于生成冗长且不准确的文本规划,而视觉规划范式(下方一行)则直接预测下一步的视觉状态,形成完全基于图像的状态轨迹,过程无需语言中介。


为支持该方法,研究团队提出了一个创新性的强化学习框架 —— 基于强化学习的视觉规划(Visual Planning via Reinforcement Learning, VPRL)。该框架以 GRPO(群体相对策略优化)为核心优化方法,用于在训练后提升大规模视觉模型的规划能力。


在多个典型的视觉导航任务中,包括 FROZENLAKE、MAZE 和 MINIBEHAVIOR,该方法实现了显著的性能提升。实验结果表明,相较于在纯文本空间内进行推理的其他所有规划变体,研究团队提出的纯视觉规划范式在效果上具备更强优势。


以下是动态示例:


冰湖(FrozenLake) : 这是一个具有随机性的网格世界(gridworld)环境,智能体需从指定起点出发,安全到达目标位置,期间必须避免掉入「冰洞」。



迷宫 Maze : 智能体获得一个初始图像,该图展示了迷宫的布局。其任务是在迷宫中从起点(绿色标记)出发,最终到达终点(红色旗帜所在位置)。



微行为(MiniBehaviour) : 智能体首先需要从起点移动至打印机所在的位置并「拾取」它,之后应将打印机运送至桌子处并「放下」。



这项研究不仅证明视觉规划是一种可行的替代方案,更揭示了它在需要直觉式图像推理任务中的巨大潜力,为图像感知与推理领域开辟了崭新方向。


强化学习驱动的视觉规划


视觉规划范式


以往的大多数视觉推理基准任务,通常通过将视觉信息映射到文本领域来求解,例如转换为物体名称、属性或关系等标注标签,在此基础上进行几步语言推理。







请到「今天看啥」查看全文