专栏名称: CraftWarmAI
智能聊天机器人(Chatbots)是交互的新趋势,Google、Facebook、Microsoft、百度、阿里等众多公司已加入此阵列,就等你了!我们会定期发布聊天机器人的各种信息,其中使用的机器学习/深度学习技术、产品、分享活动等等
目录
51好读  ›  专栏  ›  CraftWarmAI

InfiGUI-R1:从反应式执行向推理式决策的进阶之路

CraftWarmAI  · 公众号  · 机器人  · 2025-05-08 18:30

主要观点总结

本文介绍了InfiGUI-R1系统,该系统旨在通过引入一种以推理为中心的渐进式训练方法,增强MLLM的能力,并将GUI Agents从反应式执行者转变为深思熟虑的推理者。文章详细阐述了该系统的训练基模、两个阶段:推理注入和深思熟虑能力增强,以及强化学习的使用。此外,还介绍了作者实验的结果,以及与其他UI Agent技术的比较。

关键观点总结

关键观点1: InfiGUI-R1系统的目标

InfiGUI-R1旨在通过渐进式训练方法增强MLLM的能力,将GUI Agents从反应式执行者转变为推理者。

关键观点2: InfiGUI-R1的训练基模

InfiGUI-R1的训练基模是Qwen2.5-VL-3B-Instruct。

关键观点3: InfiGUI-R1的两个训练阶段

第一阶段是推理注入,旨在实现从反应式行动者到基础推理者的转变。第二阶段是深思熟虑能力增强,旨在通过强化学习提升智能体的前瞻性规划和反思性能力。

关键观点4: 强化学习的使用

在InfiGUI-R1中,作者运用强化学习作为第二阶段的主要增强机制,通过RL训练,智能体学会了在复杂环境中进行有条理、高效的规划。

关键观点5: 实验与比较

作者在实验中比较了InfiGUI-R1与其他UI Agent技术的效果,证明了InfiGUI-R1在GUI理解和定位能力以及UI Navigation方面的优越性。


正文

请到「今天看啥」查看全文


、可用的行动空间描述以及 总体目标 ,输入到具有强大推理能力的大语言模型(例如 QwQ-32B)中。促使这个教师模型生成清晰的 推理文本 以及相应的 行动 。特别要注意的是, 要引导 清晰阐述逻辑步骤,包括运用 中的空间信息来进行元素定位、关系评估以及对行动进行论证。

(3) 通过 SFT 进行推理注入

首先, 依据预测行动 的正确性 ,运用拒绝采样的方式, 对生成的 对进行筛选 以保证质量。随后,利 用剩余的 对,对 base MLLM 进行 SFT 微调 。SFT 的目标,是训练学生模型,使其在获得截图与总体目标时,能够预测出教师模型的推理过程及行动,即 。通过学习在输出行动前,显式生成或隐式模拟这些推理步骤, 学生模型将 “感知→推理→行动” 模式内化

阶段 2:审慎性提升(Deliberation Enhancement)

RL 基本设定

在阶段 1 所构建的基础推理模型的基础上,阶段 2 旨在优化其能力,使其转变为 审慎推理者 。这一阶段主要运用 基于规则奖励的强化学习(RL) 作为提升手段。其核心思路是,通过着重关注两个方面,培养智能体更为复杂的 “审慎性” 决策能力:一是 前瞻性规划 ,二是 回顾性反思与纠正 。为解决这两方面的问题,在强化学习(RL)过程中融入了两项关键创新举措: 子目标引导 ,用于加强规划与任务分解; 错误恢复场景构建 ,以推动智能体的自我纠正并增强其稳健性。

强化学习使用的是 REINFORCE Leave-One-Out (RLOO) 算法。

为保证智能体在增强针对 GUI 的审慎思考能力的同时,不削弱其通用多模态理解能力与视觉基础,RL 训练阶段 采用了多样化的数据组合 。其中涵盖 核心 GUI 轨迹数据 (如源自 AndroidControl)、 GUI 元素定位数据 (如来自小部件字幕数据集)、 通用多模态推理问答数据集 以及 目标检测数据集 (如出自 COCO)。

📌 AndroidControl ( 10k







请到「今天看啥」查看全文