Hybrid-RRF：动态权重混合检索RAG方案

数据派THU · 公众号 · 大数据 · 2025-05-12 17:00

正文

请到「今天看啥」查看全文

1.3 混合检索的破局之道

研究团队提出的 Hybrid-RRF 技术创造性地融合了两种检索方式的优势。

首先通过查询扩展（QE, Query Expansion）解决"词汇鸿沟"问题，例如将"汽车"扩展为"汽车、机动车、车辆"等同义词。
其次采用动态权重调节机制，像智能调节器一样根据查询特性自动优化检索策略——对专业性强的问题偏向关键词检索，对开放性问题偏向语义检索。
最后通过互逆排序融合（RRF, Reciprocal Rank Fusion）算法实现结果最优整合，类似于学术论文评审时综合多位专家的意见。

这种混合方法在 HaluBench 基准测试中展现出显著优势，将幻觉率降低到传统方法的 1/3 以下。

二、混合检索核心技术解析

2.1 三阶段混合架构

混合检索系统采用三阶段处理流程（如图 1 所示），通过分层处理显著提升检索质量。这种架构的设计灵感来源于信息检索领域对精确率和召回率的平衡需求，其核心创新点在于将传统的关键词搜索与现代语义搜索技术有机结合。

2.1.1 查询扩展模块

查询扩展(Query Expansion, QE)模块使用 WordNet 语义网络自动丰富原始查询词。例如对于查询词"car"，系统会扩展为["automobile", "vehicle"]等语义相近词汇。这种扩展有效解决了词汇鸿沟问题（lexical chasm），即用户查询用词与文档专业术语之间的不匹配现象。实验数据显示，该模块能使相关文档覆盖率提升 41%，这主要得益于扩展后的查询能覆盖更多文档中的同义表达。

技术实现上，系统通过 NLTK 工具包从 WordNet 获取每个查询词的前 2 个最相关同义词。这种受限扩展策略既保证了查询意图的完整性，又避免了无关词汇引入带来的噪声。例如医学查询"myocardial infarction"可能扩展为["heart attack", "cardiac infarction"]，而不会引入不相关的血管类术语。