正文
1.3 混合检索的破局之道
研究团队提出的 Hybrid-RRF 技术创造性地融合了两种检索方式的优势。
这种混合方法在 HaluBench 基准测试中展现出显著优势,将幻觉率降低到传统方法的 1/3 以下。
二、混合检索核心技术解析
2.1 三阶段混合架构
混合检索系统采用三阶段处理流程(如图 1 所示),通过分层处理显著提升检索质量。这种架构的设计灵感来源于信息检索领域对精确率和召回率的平衡需求,其核心创新点在于将传统的关键词搜索与现代语义搜索技术有机结合。
2.1.1 查询扩展模块
查询扩展(Query Expansion, QE)模块使用 WordNet 语义网络自动丰富原始查询词。例如对于查询词"car",系统会扩展为["automobile", "vehicle"]等语义相近词汇。这种扩展有效解决了词汇鸿沟问题(lexical chasm),即用户查询用词与文档专业术语之间的不匹配现象。实验数据显示,该模块能使相关文档覆盖率提升 41%,这主要得益于扩展后的查询能覆盖更多文档中的同义表达。
技术实现上,系统通过 NLTK 工具包从 WordNet 获取每个查询词的前 2 个最相关同义词。这种受限扩展策略既保证了查询意图的完整性,又避免了无关词汇引入带来的噪声。例如医学查询"myocardial infarction"可能扩展为["heart attack", "cardiac infarction"],而不会引入不相关的血管类术语。
2.1.2 动态权重调节
系统独创的查询特异性评分(Query Specificity Score, S(q'))算法实现了检索策略的智能适配。该评分通过计算查询词的平均 TF-IDF 值来量化查询的专业程度:
基于此评分,系统动态分配稀疏检索(RetS)和稠密检索(RetD)的权重:
当处理专业查询(如医学术语"EGFR mutation")时,系统会赋予 BM25 稀疏检索更高权重(约 0.7),因为这类查询需要精确匹配专业术语。
而对于通用查询(如"如何学习编程"),则侧重稠密检索(权重约 0.8),以捕捉语义层面的相关性。
2.1.3 互逆排序融合
系统采用改进的加权互逆排序融合(Weighted Reciprocal Rank Fusion, WRRF)算法整合两种检索结果。
其核心公式为: