让视觉语言模型像o3一样动手搜索、写代码！Visual ARFT实现多模态智能体能力

机器之心 · 公众号 · AI · 2025-05-27 12:11

正文

请到「今天看啥」查看全文

动脑推理、动手操作」，主要包括以下三个方面的核心能力：

模型能够自动调用搜索引擎查资料或者编写并执行 Python 代码处理图像；
面对复杂任务，能够自主拆解问题、规划步骤、调用合适工具完成任务；
支持多步推理、多模态输入，具备强大的跨模态泛化能力！

如图 1 所示，本文的方法编写并执行 Python 代码以精准读取图像中特定区域的文本（上图），或者通过互联网搜索回答多模态多跳问题（下图）。

图 1. 视觉智能体强化微调（Visual Agentic Reinforcement Fine-Tuning，简称 Visual-ARFT）在执行复杂的多模态推理任务中展现出显著优势，例如：（上图）编写并执行 Python 代码以精准读取图像中特定区域的文本，以及（下图）通过互联网搜索回答多跳问题。

同时，为了评估模型的工具调用和多模态推理能力，团队构建了智能体评测基准 MAT-Bench (Multimodal Agentic Tool Bench) 。测试结果显示，Visual-ARFT 在多个子任务中全面超越 GPT-4o，通过调用工具 ——「写代码 + 查资料」，展现出了完成复杂多模态视觉任务的强大潜力。

方法概览

Visual-ARFT 基于强化微调的训练策略，使用 GRPO 的算法来更新模型权重。团队针对多模态智能体完成任务的流程，对 LVLM 的多步工具调用和问题回答设计了 rule-based verifiable reward。通过简单高效的 reward 设计，驱动模型自主探索工具的使用方法和思考模式。

团队在训练中使用几十到最多 1.2k 的训练数据，通过少量数据实现了对模型的多模态智能体能力的训练。

请到「今天看啥」查看全文

推荐文章

教你学风水转运 · 三星Galaxy S8运行速度对比 iPhone 7 Plus

8 年前

占豪 · 原创丨真正全球首次！中国放大卫星，国务院急发贺电，两件大事正导致南海剧变！

8 年前

DeepTech深科技 · 重大发现！量子世界中，物体跟其动量方向“反着走”

7 年前

艺博家庭教育 · ※培养孩子的分享意识，这位妈妈是这样做的！

7 年前

游戏研究社 · 任天堂的纸板玩具还没发售，手工达人就自己做了一堆出来

7 年前