正文
来自剑桥、伦敦大学学院、谷歌的研究团队认为:
语言不一定始终是进行推理最自然或最有效的模态,尤其是在涉及空间与几何信息的任务场景中
。
基于此动因,研究团队提出了一种全新的推理与规划范式 ——
视觉规划(Visual Planning)。该范式完全基于视觉表示进行规划,完全独立于文本模态
。
-
论文标题:Visual Planning: Let’s Think Only with Images
-
论文地址:https://arxiv.org/pdf/2505.11409
-
代码仓库:https://github.com/yix8/VisualPlanning
在这一框架下,规划通过一系列图像按步编码视觉域内的推理过程,类似于人类通过草图或想象视觉图景来计划未来行为的方式。
推理范式的对比。传统方法(上方与中间两行)倾向于生成冗长且不准确的文本规划,而视觉规划范式(下方一行)则直接预测下一步的视觉状态,形成完全基于图像的状态轨迹,过程无需语言中介。
为支持该方法,研究团队提出了一个创新性的强化学习框架 —— 基于强化学习的视觉规划(Visual Planning via Reinforcement Learning, VPRL)。该框架以 GRPO(群体相对策略优化)为核心优化方法,用于在训练后提升大规模视觉模型的规划能力。
在多个典型的视觉导航任务中,包括 FROZENLAKE、MAZE 和 MINIBEHAVIOR,该方法实现了显著的性能提升。实验结果表明,相较于在纯文本空间内进行推理的其他所有规划变体,研究团队提出的纯视觉规划范式在效果上具备更强优势。
以下是动态示例:
冰湖(FrozenLake)
: 这是一个具有随机性的网格世界(gridworld)环境,智能体需从指定起点出发,安全到达目标位置,期间必须避免掉入「冰洞」。
迷宫 Maze
: 智能体获得一个初始图像,该图展示了迷宫的布局。其任务是在迷宫中从起点(绿色标记)出发,最终到达终点(红色旗帜所在位置)。
微行为(MiniBehaviour)
: 智能体首先需要从起点移动至打印机所在的位置并「拾取」它,之后应将打印机运送至桌子处并「放下」。
这项研究不仅证明视觉规划是一种可行的替代方案,更揭示了它在需要直觉式图像推理任务中的巨大潜力,为图像感知与推理领域开辟了崭新方向。
强化学习驱动的视觉规划
视觉规划范式
以往的大多数视觉推理基准任务,通常通过将视觉信息映射到文本领域来求解,例如转换为物体名称、属性或关系等标注标签,在此基础上进行几步语言推理。