真实联网搜索Agent，7B媲美满血R1，华为盘古DeepDiver给出开域信息获取新解法

机器之心 · 公众号 · AI · 2025-06-05 12:40

主要观点总结

华为诺亚方舟实验室研究团队提出了Pangu DeepDiver模型，通过Search Intensity Scaling实现了LLM搜索引擎自主交互的新范式。该模型在WebPuzzle及多个基准测试上表现出卓越性能，验证了其在真实互联网环境下解决知识密集型问题的能力。文章详细描述了DeepDiver的创新之处、数据构建方法、训练流程、实验结果等。

关键观点总结

关键观点1: Pangu DeepDiver模型通过强化学习与真实互联网搜索引擎的结合，实现了Search Intensity Scaling，使模型能根据任务难度自适应调整搜索强度。

DeepDiver模型是华为诺亚方舟实验室研究团队的一项创新成果，该模型通过强化学习训练，能够在真实互联网环境下进行信息检索和推理。在WebPuzzle及多个基准测试中，Pangu DeepDiver模型展现出卓越的信息索取能力，特别是在解决知识密集型问题上表现出色。

关键观点2: WebPuzzle数据集的构建和用途

WebPuzzle数据集是DeepDiver模型训练的关键。它通过收集大部分LLM的cutoff knowledge date后的Wiki语料，然后罗列出与实体有关的特性作为谜面，增加解题难度。此外，WebPuzzle还包括基于现网真实用户问题及其搜索返回结果构建的数据，为模型提供丰富的训练样本。

关键观点3: DeepDiver模型的训练方法和流程

DeepDiver模型的训练分为冷启动阶段和强化学习阶段。在冷启动阶段，模型通过蒸馏teacher模型的回复掌握基本解题套路。在强化学习阶段，模型使用GRPO算法自主探索，对高质量探索路径给予奖励。训练过程中还采用了两种互补的奖励函数设计，稳定训练初期并帮助模型突破训练瓶颈。

关键观点4: DeepDiver模型的实验结果和表现

DeepDiver模型在WebPuzzle及多个基准测试上表现出卓越性能。特别是在WebPuzzle上，DeepDiver的表现远超蒸馏版本的模型，准确率达到38.1%。此外，DeepDiver还展现出优异的跨任务泛化能力，在多个数据集上表现卓越。

正文

请到「今天看啥」查看全文

，缺乏真实互联网的噪声和信息冲突，这使得目前主流的基于 wiki 环境的 LLM 会主动地学习如何收集关键信息，但如何解决冲突，如何在真实互联网环境中去噪，验证信息真实度，以及如何反思和纠正内容等高阶能力则会被忽略。

这些受限的训练语料和环境，阻碍了 LLM 学习动态地决定何时何地进行搜索，以及如何根据需求调整搜索深度和频率。研究团队将这种缺失的能力定义为 Search Intensity Scaling (SIS) —— 一种在充满模糊、信息冲突的高噪音环境下，LLM 为了突破困境而涌现出的信息检索能力，通过 SIS，模型会根据问题难易程度动态的调整搜索频率和深度，而不是妥协于验证不足的答案上。为此，研究团队认为只有在真实互联网环境下，用真实互联网数据进行探索式训练，才能使模型涌现真正的高阶信息检索和推理能力。

图 1：四种关键信息搜索行为示意图：

(a) 收集关键信息，(b) 解决冲突，(c) 验证与去噪，(d) 反思与纠正

WebPuzzle

真实互联网环境下的高质量数据集

为了让模型能够使用真实的互联网数据进行训练，本文提出了 WebPuzzle。

来看几个 WebPuzzle 中的问题示例：

他是一名 NBA 状元秀球员，他曾效力于 76 人、掘金、活塞等队，他入选了最佳新秀一阵，然而他没拿到过总冠军，他有超过 170 + 次数的两双数据，他是谁？

-- 答案： Joe Smith （艾佛森并不满足两双数据的描述）

她凭借多个经典古装角色深入人心，她曾经签约了海外的唱片公司推出过多语种音乐专辑，她主演的某部古装剧更因播放量创纪录被国家馆藏机构收录，更令她凭此剧斩获某电视节最高奖项，她是谁？

-- 答案：刘亦菲

2020 年 10 月至 2024 年 4 月期间，华为公司与孝感市政府进行了几次合作洽谈？每次洽谈的主要领导是谁？

-- 答案：2 次洽谈，第一次是 2020 年时任市委书记、市长吴海涛与湖北公司总经理孟少云。第二次是 2024 年市委副书记、市长吴庆华与华为技术有限公司高级副总裁杨瑞凯。

尝试用搜索引擎解答这个问题，会发现需要多轮搜索和推理才能得出正确答案。

数据收集与处理

WebPuzzle 主要从两个数据源采集：

Wiki 猜谜类数据：研究团队收集了大部分 LLM 的 cutoff knowledge date 后的 Wiki 语料，在语料中选取特定实体作为谜底，然后罗列出与该实体有关的特性作为谜面，再将其中部分特性隐藏化、模糊化（如示例中的「超过 170 + 次数」，「签约了海外的唱片公司」分别代表「 172 次两双数据」，「签约了日本的唱片公司」），增加解题难度。
真实用户问题：基于现网真实用户问题及其搜索返回结果，构建多篇网页交叉验证的问题。

图 2：WebPuzzle 数据构建流程，包括候选生成和难度标注两个主要阶段

测试集经过了人工标注后，最终版 WebPuzzle 包含 24k 训练样本和 275 条高质量评测样本，涵盖不同难度等级的跨页问答和猜谜题目。

DeepDiver 训练流程

迭代检索与强化学习在真实互联网环境下的结合

DeepDiver 基于迭代式 RAG 框架构建，该框架要求模型在收到用户请求后，自行在多个轮次交替式的推理和搜索，具体来说，在每个轮次中:

1. 推理 (Reasoning)：针对历史轮次进行反思、推理、总结

2. 决策：根据推理的内容，决策当前轮次是搜索 (Search) 或回答 (Answer)

整体训练流程分为两个主要阶段：

冷启动阶段 (Cold-start SFT)

通过蒸馏 teacher 模型的回复，使模型掌握基本的解题套路。使用 5.2k 高质量数据对模型进行初步训练，包括：