主要观点总结
华为诺亚方舟实验室研究团队提出了Pangu DeepDiver模型,通过Search Intensity Scaling实现了LLM搜索引擎自主交互的新范式。该模型在WebPuzzle及多个基准测试上表现出卓越性能,验证了其在真实互联网环境下解决知识密集型问题的能力。文章详细描述了DeepDiver的创新之处、数据构建方法、训练流程、实验结果等。
关键观点总结
关键观点1: Pangu DeepDiver模型通过强化学习与真实互联网搜索引擎的结合,实现了Search Intensity Scaling,使模型能根据任务难度自适应调整搜索强度。
DeepDiver模型是华为诺亚方舟实验室研究团队的一项创新成果,该模型通过强化学习训练,能够在真实互联网环境下进行信息检索和推理。在WebPuzzle及多个基准测试中,Pangu DeepDiver模型展现出卓越的信息索取能力,特别是在解决知识密集型问题上表现出色。
关键观点2: WebPuzzle数据集的构建和用途
WebPuzzle数据集是DeepDiver模型训练的关键。它通过收集大部分LLM的cutoff knowledge date后的Wiki语料,然后罗列出与实体有关的特性作为谜面,增加解题难度。此外,WebPuzzle还包括基于现网真实用户问题及其搜索返回结果构建的数据,为模型提供丰富的训练样本。
关键观点3: DeepDiver模型的训练方法和流程
DeepDiver模型的训练分为冷启动阶段和强化学习阶段。在冷启动阶段,模型通过蒸馏teacher模型的回复掌握基本解题套路。在强化学习阶段,模型使用GRPO算法自主探索,对高质量探索路径给予奖励。训练过程中还采用了两种互补的奖励函数设计,稳定训练初期并帮助模型突破训练瓶颈。
关键观点4: DeepDiver模型的实验结果和表现
DeepDiver模型在WebPuzzle及多个基准测试上表现出卓越性能。特别是在WebPuzzle上,DeepDiver的表现远超蒸馏版本的模型,准确率达到38.1%。此外,DeepDiver还展现出优异的跨任务泛化能力,在多个数据集上表现卓越。
正文
,缺乏真实互联网的噪声和信息冲突,这使得目前主流的基于 wiki 环境的 LLM 会主动地学习如何
收集关键信息
,但如何解决冲突,如何在真实互联网环境中
去噪
,
验证信息真实度
,以及如何
反思和纠正
内容等高阶能力则会被忽略。
这些受限的训练语料和环境,阻碍了 LLM 学习动态地决定何时何地进行搜索,以及如何根据需求调整搜索深度和频率。研究团队将这种缺失的能力定义为
Search Intensity Scaling (SIS)
—— 一种在充满模糊、信息冲突的高噪音环境下,LLM 为了突破困境而涌现出的信息检索能力,通过 SIS,模型会根据问题难易程度动态的调整搜索频率和深度,而不是妥协于验证不足的答案上。为此,研究团队认为只有在真实互联网环境下,用真实互联网数据进行探索式训练,才能使模型涌现真正的高阶信息检索和推理能力。
图 1:四种关键信息搜索行为示意图:
(a) 收集关键信息,(b) 解决冲突,(c) 验证与去噪,(d) 反思与纠正
WebPuzzle
真实互联网环境下的高质量数据集
为了让模型能够使用真实的互联网数据进行训练,本文提出了 WebPuzzle。
来看几个 WebPuzzle 中的问题示例:
他是一名 NBA 状元秀球员,他曾效力于 76 人、掘金、活塞等队,他入选了最佳新秀一阵,然而他没拿到过总冠军,他有超过 170 + 次数的两双数据,他是谁?
-- 答案: Joe Smith (艾佛森并不满足两双数据的描述)
她凭借多个经典古装角色深入人心,她曾经签约了海外的唱片公司推出过多语种音乐专辑,她主演的某部古装剧更因播放量创纪录被国家馆藏机构收录,更令她凭此剧斩获某电视节最高奖项,她是谁?
-- 答案:刘亦菲
2020 年 10 月至 2024 年 4 月期间,华为公司与孝感市政府进行了几次合作洽谈?每次洽谈的主要领导是谁?
-- 答案:2 次洽谈,第一次是 2020 年时任市委书记、市长吴海涛与湖北公司总经理孟少云。第二次是 2024 年市委副书记、市长吴庆华与华为技术有限公司高级副总裁杨瑞凯。
尝试用搜索引擎解答这个问题,会发现需要多轮搜索和推理才能得出正确答案。
数据收集与处理
WebPuzzle 主要从两个数据源采集:
-
Wiki 猜谜类数据:
研究团队收集了大部分 LLM 的 cutoff knowledge date 后的 Wiki 语料,在语料中选取特定实体作为谜底,然后罗列出与该实体有关的特性作为谜面,再将其中部分特性
隐藏化、模糊化
(如示例中的
「
超过 170 + 次数
」
,
「
签约了海外的唱片公司
」
分别代表
「
172 次两双数据
」
,
「
签约了日本的唱片公司
」
),增加解题难度。
-
真实用户问题:
基于现网真实用户问题及其搜索返回结果,构建多篇网页交叉验证的问题。
图 2:WebPuzzle 数据构建流程,包括候选生成和难度标注两个主要阶段
测试集经过了人工标注后,最终版 WebPuzzle 包含 24k 训练样本和 275 条高质量评测样本,涵盖不同难度等级的跨页问答和猜谜题目。
DeepDiver 训练流程
迭代检索与强化学习在真实互联网环境下的结合
DeepDiver 基于迭代式 RAG 框架构建,该框架要求模型在收到用户请求后,自行在多个轮次交替式的推理和搜索,具体来说,在每个轮次中:
1. 推理 (Reasoning):针对历史轮次进行反思、推理、总结
2. 决策:根据推理的内容,决策当前轮次是搜索 (Search) 或回答 (Answer)
整体训练流程分为两个主要阶段:
冷启动阶段 (Cold-start SFT)
通过蒸馏 teacher 模型的回复,使模型掌握基本的解题套路。使用 5.2k 高质量数据对模型进行初步训练,包括: