专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
爱可可-爱生活  ·  【[138星]Awesome-LLM-Sci ... ·  19 小时前  
机器学习研究组订阅  ·  新版Gemini ... ·  昨天  
爱可可-爱生活  ·  今日推介(第1793期):纠正稀疏注意力、通 ... ·  2 天前  
爱可可-爱生活  ·  【[228星]fastapi-guard:为 ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

真实联网搜索Agent,7B媲美满血R1,华为盘古DeepDiver给出开域信息获取新解法

机器之心  · 公众号  · AI  · 2025-06-05 12:40

主要观点总结

华为诺亚方舟实验室研究团队提出了Pangu DeepDiver模型,通过Search Intensity Scaling实现了LLM搜索引擎自主交互的新范式。该模型在WebPuzzle及多个基准测试上表现出卓越性能,验证了其在真实互联网环境下解决知识密集型问题的能力。文章详细描述了DeepDiver的创新之处、数据构建方法、训练流程、实验结果等。

关键观点总结

关键观点1: Pangu DeepDiver模型通过强化学习与真实互联网搜索引擎的结合,实现了Search Intensity Scaling,使模型能根据任务难度自适应调整搜索强度。

DeepDiver模型是华为诺亚方舟实验室研究团队的一项创新成果,该模型通过强化学习训练,能够在真实互联网环境下进行信息检索和推理。在WebPuzzle及多个基准测试中,Pangu DeepDiver模型展现出卓越的信息索取能力,特别是在解决知识密集型问题上表现出色。

关键观点2: WebPuzzle数据集的构建和用途

WebPuzzle数据集是DeepDiver模型训练的关键。它通过收集大部分LLM的cutoff knowledge date后的Wiki语料,然后罗列出与实体有关的特性作为谜面,增加解题难度。此外,WebPuzzle还包括基于现网真实用户问题及其搜索返回结果构建的数据,为模型提供丰富的训练样本。

关键观点3: DeepDiver模型的训练方法和流程

DeepDiver模型的训练分为冷启动阶段和强化学习阶段。在冷启动阶段,模型通过蒸馏teacher模型的回复掌握基本解题套路。在强化学习阶段,模型使用GRPO算法自主探索,对高质量探索路径给予奖励。训练过程中还采用了两种互补的奖励函数设计,稳定训练初期并帮助模型突破训练瓶颈。

关键观点4: DeepDiver模型的实验结果和表现

DeepDiver模型在WebPuzzle及多个基准测试上表现出卓越性能。特别是在WebPuzzle上,DeepDiver的表现远超蒸馏版本的模型,准确率达到38.1%。此外,DeepDiver还展现出优异的跨任务泛化能力,在多个数据集上表现卓越。


正文

请到「今天看啥」查看全文


,缺乏真实互联网的噪声和信息冲突,这使得目前主流的基于 wiki 环境的 LLM 会主动地学习如何 收集关键信息 ,但如何解决冲突,如何在真实互联网环境中 去噪 验证信息真实度 ,以及如何 反思和纠正 内容等高阶能力则会被忽略。


这些受限的训练语料和环境,阻碍了 LLM 学习动态地决定何时何地进行搜索,以及如何根据需求调整搜索深度和频率。研究团队将这种缺失的能力定义为 Search Intensity Scaling (SIS) —— 一种在充满模糊、信息冲突的高噪音环境下,LLM 为了突破困境而涌现出的信息检索能力,通过 SIS,模型会根据问题难易程度动态的调整搜索频率和深度,而不是妥协于验证不足的答案上。为此,研究团队认为只有在真实互联网环境下,用真实互联网数据进行探索式训练,才能使模型涌现真正的高阶信息检索和推理能力。


图 1:四种关键信息搜索行为示意图:

(a) 收集关键信息,(b) 解决冲突,(c) 验证与去噪,(d) 反思与纠正


WebPuzzle

真实互联网环境下的高质量数据集


为了让模型能够使用真实的互联网数据进行训练,本文提出了 WebPuzzle。


来看几个 WebPuzzle 中的问题示例:


他是一名 NBA 状元秀球员,他曾效力于 76 人、掘金、活塞等队,他入选了最佳新秀一阵,然而他没拿到过总冠军,他有超过 170 + 次数的两双数据,他是谁?


-- 答案: Joe Smith (艾佛森并不满足两双数据的描述)


她凭借多个经典古装角色深入人心,她曾经签约了海外的唱片公司推出过多语种音乐专辑,她主演的某部古装剧更因播放量创纪录被国家馆藏机构收录,更令她凭此剧斩获某电视节最高奖项,她是谁?


-- 答案:刘亦菲


2020 年 10 月至 2024 年 4 月期间,华为公司与孝感市政府进行了几次合作洽谈?每次洽谈的主要领导是谁?


-- 答案:2 次洽谈,第一次是 2020 年时任市委书记、市长吴海涛与湖北公司总经理孟少云。第二次是 2024 年市委副书记、市长吴庆华与华为技术有限公司高级副总裁杨瑞凯。


尝试用搜索引擎解答这个问题,会发现需要多轮搜索和推理才能得出正确答案。


数据收集与处理


WebPuzzle 主要从两个数据源采集:


  • Wiki 猜谜类数据: 研究团队收集了大部分 LLM 的 cutoff knowledge date 后的 Wiki 语料,在语料中选取特定实体作为谜底,然后罗列出与该实体有关的特性作为谜面,再将其中部分特性 隐藏化、模糊化 (如示例中的 超过 170 + 次数 签约了海外的唱片公司 分别代表 172 次两双数据 签约了日本的唱片公司 ),增加解题难度。

  • 真实用户问题: 基于现网真实用户问题及其搜索返回结果,构建多篇网页交叉验证的问题。


图 2:WebPuzzle 数据构建流程,包括候选生成和难度标注两个主要阶段


测试集经过了人工标注后,最终版 WebPuzzle 包含 24k 训练样本和 275 条高质量评测样本,涵盖不同难度等级的跨页问答和猜谜题目。


DeepDiver 训练流程

迭代检索与强化学习在真实互联网环境下的结合


DeepDiver 基于迭代式 RAG 框架构建,该框架要求模型在收到用户请求后,自行在多个轮次交替式的推理和搜索,具体来说,在每个轮次中:


1. 推理 (Reasoning):针对历史轮次进行反思、推理、总结

2. 决策:根据推理的内容,决策当前轮次是搜索 (Search) 或回答 (Answer)


整体训练流程分为两个主要阶段:


冷启动阶段 (Cold-start SFT)


通过蒸馏 teacher 模型的回复,使模型掌握基本的解题套路。使用 5.2k 高质量数据对模型进行初步训练,包括:







请到「今天看啥」查看全文