InfoDeepSeek：首个开放网络环境下的智能体信息搜寻质量评估基准

AI科技评论 · 公众号 · · 2025-05-28 15:49

正文

请到「今天看啥」查看全文

随着技术的发展，研究者们发现传统RAG系统在处理复杂任务时，其固定的工作流程显得力不从心。于是，Agentic RAG应运而生。它将自主的LLM智能体集成到RAG流程中，赋予系统动态规划、执行多步搜索、与环境交互（如使用工具浏览网页）以及根据中间结果进行反思和调整策略的能力。

这种范式极大地增强了信息获取的灵活性和鲁棒性，并已在一些实际系统中得到应用，例如OpenAI、谷歌的Gemini以及Perplexity AI等产品都集成了Deep Research，它们都利用智能体在实时网络中迭代搜索和整合信息。 智能体的引入主要革新了RAG的信息搜寻部分 ，而最终的生成步骤则与传统RAG类似，依旧是基于获取到的外部信息来构建答案。

因此，评估Agentic RAG系统的核心目标之一，便是衡量其智能体信息搜寻的有效性。然而，现有的RAG基准在评估此类系统时显得捉襟见肘：

1. 环境与语料库限制：

大多数基准依赖于静态的、预先固定的、规模有限的文本集合。这与真实网络环境的海量、动态、URL可能失效以及搜索引擎结果波动等特性相去甚远。因此，它们无法反映Agentic RAG系统在实际部署中需应对的复杂性。

2. 评估方法不适：

传统评估方法常依赖预定义的“正确文档集”并使用如NDCG等传统指标来评估信息检索效果。但在开放和动态的网络中，预先确定一个全面、固定的正确文档集合几乎不可能，这使得这些方法难以适用。

3. 问题复杂度不足：

现有基准中的查询往往较为简单，LLM通过自身知识或单轮搜索即可解决。这类问题不足以激发和评估智能体的规划、多轮交互及复杂推理等核心能力。

为了弥补这些差距，迫切需要一个能够在真实、动态的网络环境中，通过具有挑战性的复杂问题来评估智能体信息搜寻能力的全新基准和评估框架。这正是InfoDeepSeek项目诞生的初衷。

数据集构建

InfoDeepSeek数据集的构建旨在产出一系列高质量、具挑战性的查询，用于评估智能体在真实网络环境中的信息搜寻能力。

1. 查询构建三大核心标准：

确定性与可验证性： 每个问题必须有清晰、唯一且不随时间改变的答案，并能通过公开网络资源验证。这是动态环境评估的基础。

困难性： 问题需对LLM构成挑战，即使配备单轮网页搜索也难以直接解决。为此，数据集构建时会融入多跳推理、长尾知识、时间敏感性、新鲜事、干扰信息和错误前提等多种困难属性，并且进行困难过滤，去除简单问题。

多样性： 查询需覆盖多种困难属性组合（每题至少两种）、广泛的领域（如体育、政治、科学、历史、艺术等14个领域）以及不同的“优势语言”（即答案主要存在于非英/中文的语言环境中，如日语、法语等。

2. 系统化构建方法：

采用“事实驱动的问题起草”、“从锚点知识扩展”、“多样化策略”、“过滤与精炼”以及“多阶段验证”的流程。

起草与扩展： 标注者从权威网络源提取事实（特别是长尾或含干扰的“锚点知识”），反向构建问题，并通过组合不同知识点或困难属性来增加复杂度。

过滤： 通过“确定性检查”确保答案的稳定与唯一，“困难性检查”则用GPT-4o和DeepSeek-R1联网搜索状态下测试，淘汰简单问题。

验证： 每个问题经两名独立标注者审核其正确性、确定性、困难度等，再由第三方仲裁定夺。

图2 数据集构建流程

最终，InfoDeepSeek包含245个经过严格验证的高质量问题，每个问题都附有标准答案、来源网页及详细元数据（困难属性、领域、优势语言等）。