正文
随着技术的发展,研究者们发现传统RAG系统在处理复杂任务时,其固定的工作流程显得力不从心。于是,Agentic RAG应运而生。它将自主的LLM智能体集成到RAG流程中,赋予系统动态规划、执行多步搜索、与环境交互(如使用工具浏览网页)以及根据中间结果进行反思和调整策略的能力。
这种范式极大地增强了信息获取的灵活性和鲁棒性,并已在一些实际系统中得到应用,例如OpenAI、谷歌的Gemini以及Perplexity AI等产品都集成了Deep Research,它们都利用智能体在实时网络中迭代搜索和整合信息 。
智能体的引入主要革新了RAG的信息搜寻部分
,而最终的生成步骤则与传统RAG类似,依旧是基于获取到的外部信息来构建答案。
因此,评估Agentic RAG系统的核心目标之一,便是衡量其智能体信息搜寻的有效性。然而,现有的RAG基准在评估此类系统时显得捉襟见肘:
1. 环境与语料库限制:
大多数基准依赖于静态的、预先固定的、规模有限的文本集合 。这与真实网络环境的海量、动态、URL可能失效以及搜索引擎结果波动等特性相去甚远。因此,它们无法反映Agentic RAG系统在实际部署中需应对的复杂性。
2. 评估方法不适:
传统评估方法常依赖预定义的“正确文档集”并使用如NDCG等传统指标来评估信息检索效果。但在开放和动态的网络中,预先确定一个全面、固定的正确文档集合几乎不可能,这使得这些方法难以适用。
3. 问题复杂度不足:
现有基准中的查询往往较为简单,LLM通过自身知识或单轮搜索即可解决。这类问题不足以激发和评估智能体的规划、多轮交互及复杂推理等核心能力。
为了弥补这些差距,迫切需要一个能够在真实、动态的网络环境中,通过具有挑战性的复杂问题来评估智能体信息搜寻能力的全新基准和评估框架。这正是InfoDeepSeek项目诞生的初衷。
InfoDeepSeek数据集的构建旨在产出一系列高质量、具挑战性的查询,用于评估智能体在真实网络环境中的信息搜寻能力。
1. 查询构建三大核心标准:
2. 系统化构建方法:
采用“事实驱动的问题起草”、“从锚点知识扩展”、“多样化策略”、“过滤与精炼”以及“多阶段验证”的流程。
图2 数据集构建流程
最终,InfoDeepSeek包含245个经过严格验证的高质量问题,每个问题都附有标准答案、来源网页及详细元数据(困难属性、领域、优势语言等)。