只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

机器之心 · 公众号 · AI · 2025-05-25 11:51

正文

来自剑桥、伦敦大学学院、谷歌的研究团队认为：语言不一定始终是进行推理最自然或最有效的模态，尤其是在涉及空间与几何信息的任务场景中。

基于此动因，研究团队提出了一种全新的推理与规划范式 —— 视觉规划（Visual Planning）。该范式完全基于视觉表示进行规划，完全独立于文本模态。

在这一框架下，规划通过一系列图像按步编码视觉域内的推理过程，类似于人类通过草图或想象视觉图景来计划未来行为的方式。

推理范式的对比。传统方法（上方与中间两行）倾向于生成冗长且不准确的文本规划，而视觉规划范式（下方一行）则直接预测下一步的视觉状态，形成完全基于图像的状态轨迹，过程无需语言中介。

为支持该方法，研究团队提出了一个创新性的强化学习框架 —— 基于强化学习的视觉规划（Visual Planning via Reinforcement Learning, VPRL）。该框架以 GRPO（群体相对策略优化）为核心优化方法，用于在训练后提升大规模视觉模型的规划能力。

在多个典型的视觉导航任务中，包括 FROZENLAKE、MAZE 和 MINIBEHAVIOR，该方法实现了显著的性能提升。实验结果表明，相较于在纯文本空间内进行推理的其他所有规划变体，研究团队提出的纯视觉规划范式在效果上具备更强优势。

以下是动态示例：

冰湖（FrozenLake）：这是一个具有随机性的网格世界（gridworld）环境，智能体需从指定起点出发，安全到达目标位置，期间必须避免掉入「冰洞」。

迷宫 Maze ：智能体获得一个初始图像，该图展示了迷宫的布局。其任务是在迷宫中从起点（绿色标记）出发，最终到达终点（红色旗帜所在位置）。

微行为（MiniBehaviour）：智能体首先需要从起点移动至打印机所在的位置并「拾取」它，之后应将打印机运送至桌子处并「放下」。

这项研究不仅证明视觉规划是一种可行的替代方案，更揭示了它在需要直觉式图像推理任务中的巨大潜力，为图像感知与推理领域开辟了崭新方向。

强化学习驱动的视觉规划

视觉规划范式

以往的大多数视觉推理基准任务，通常通过将视觉信息映射到文本领域来求解，例如转换为物体名称、属性或关系等标注标签，在此基础上进行几步语言推理。