HiRAG：基于层级知识索引和检索的高精度RAG

数据派THU · 公众号 · 大数据 · 2025-05-27 17:00

主要观点总结

本文介绍了基于分层知识增强的检索增强生成框架HiRAG，通过创新的分层索引和分层检索机制，解决了现有图结构RAG系统中的语义关联和知识结构问题。实验证明，HiRAG在多个领域问答任务中表现优异，生成答案的完整性、信息量和逻辑连贯性得到显著提升。文章还讨论了方法的优势、局限性和未来工作方向。

关键观点总结

关键观点1: HiRAG框架解决了现有图结构RAG系统的两大挑战：语义相似实体结构关系疏远和全局与局部知识断层。

通过分层知识图谱和三级知识检索机制，HiRAG实现了语义关联与结构邻近的优化，成功桥接了不同知识层级间的语义鸿沟。

关键观点2: HiRAG的主要创新点包括分层索引（HiIndex）和分层检索（HiRetrieval）。

HiIndex通过构建分层知识图谱，增强语义相似实体间的连通性；HiRetrieval通过桥接层知识弥合实体描述与社区知识间的断层，为LLM提供全局、桥接及局部的三级上下文。

关键观点3: 实验证明HiRAG在多个数据集和评估维度上的性能优于基线方法。

在Mix、CS、Legal、Agriculture数据集上，HiRAG的综合胜率显著高于基线方法，验证了其在不同数据密度场景下的鲁棒性。

关键观点4: HiRAG具有动态适应层次数量的能力。

通过聚类稀疏度变化曲线和语义枢纽验证，HiRAG能够智能确定层次数量，适应不同领域的数据特点。

关键观点5: HiRAG在效率与成本分析方面表现出优势。

虽然索引构建成本较高，但检索阶段实现零Token消耗，平均响应时间控制在2秒以内，特别适用于需要快速响应的在线检索场景。

正文

请到「今天看啥」查看全文

大多数情况下，只需从外部图数据库中检索最相关的子图，近似为：

The HiRAG Framework

HiRAG由HiIndex和HiRetrieval两个模块组成。在HiIndex模块中，在不同层构造了一个知识粒度不同的层级KG。较高层中的摘要实体表示更粗粒度的高级知识，但它们可以增强较低层中语义相似实体之间的连通性。在HiRetrieval模块中，从每个检索到的社区中选择最相关的实体，并找到最短的路径将它们连接起来，作为连接本地和全局知识的桥梁级知识。然后，LLM将以这三个层次的知识为背景生成响应。