主要观点总结
本文介绍了基于分层知识增强的检索增强生成框架HiRAG,通过创新的分层索引和分层检索机制,解决了现有图结构RAG系统中的语义关联和知识结构问题。实验证明,HiRAG在多个领域问答任务中表现优异,生成答案的完整性、信息量和逻辑连贯性得到显著提升。文章还讨论了方法的优势、局限性和未来工作方向。
关键观点总结
关键观点1: HiRAG框架解决了现有图结构RAG系统的两大挑战:语义相似实体结构关系疏远和全局与局部知识断层。
通过分层知识图谱和三级知识检索机制,HiRAG实现了语义关联与结构邻近的优化,成功桥接了不同知识层级间的语义鸿沟。
关键观点2: HiRAG的主要创新点包括分层索引(HiIndex)和分层检索(HiRetrieval)。
HiIndex通过构建分层知识图谱,增强语义相似实体间的连通性;HiRetrieval通过桥接层知识弥合实体描述与社区知识间的断层,为LLM提供全局、桥接及局部的三级上下文。
关键观点3: 实验证明HiRAG在多个数据集和评估维度上的性能优于基线方法。
在Mix、CS、Legal、Agriculture数据集上,HiRAG的综合胜率显著高于基线方法,验证了其在不同数据密度场景下的鲁棒性。
关键观点4: HiRAG具有动态适应层次数量的能力。
通过聚类稀疏度变化曲线和语义枢纽验证,HiRAG能够智能确定层次数量,适应不同领域的数据特点。
关键观点5: HiRAG在效率与成本分析方面表现出优势。
虽然索引构建成本较高,但检索阶段实现零Token消耗,平均响应时间控制在2秒以内,特别适用于需要快速响应的在线检索场景。
正文
大多数情况下,只需从外部图数据库
中检索最相关的子图
,近似为:
The HiRAG Framework
HiRAG由HiIndex和HiRetrieval两个模块组成。在HiIndex模块中,在不同层构造了一个知识粒度不同的层级KG。较高层中的摘要实体表示更粗粒度的高级知识,但它们可以增强较低层中语义相似实体之间的连通性。在HiRetrieval模块中,从每个检索到的社区中选择最相关的实体,并找到最短的路径将它们连接起来,作为连接本地和全局知识的桥梁级知识。然后,LLM将以这三个层次的知识为背景生成响应。
Indexing with Hierarchical Knowledge 层级知识索引
在HiIndex模块中,将输入文档索引为层级KG。首先,采用以实体为中心的三重提取来构建基本的KG
。具体来说,将输入文档分成一些重叠的文本块。这些块将通过设计的提示输入LLM,首先提取实体
。然后,LLM将根据相应文本块的信息在抽取的实体对之间生成关系(或边)
。基本的KG可以表示为:
基本KG也是层级KG的第0层。本文将第i层的实体(节点)集合表示为
,其中
。为了构造分层KG的第i层,当i≥1时,首先获取分层KG的第(i−1)层中实体的嵌入表示用于捕捉语义相似性。,记为:
随后使用高斯混合模型(GMM)对
进行聚类,得到聚类