专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
人工智能与大数据技术  ·  AI编程新王Claude ... ·  4 天前  
人工智能与大数据技术  ·  15亿美元AI独角兽崩塌,全是印度程序员冒充 ... ·  3 天前  
人工智能与大数据技术  ·  AI 正在培养“文盲”程序员? ·  4 天前  
51好读  ›  专栏  ›  数据派THU

HiRAG:基于层级知识索引和检索的高精度RAG

数据派THU  · 公众号  · 大数据  · 2025-05-27 17:00

主要观点总结

本文介绍了基于分层知识增强的检索增强生成框架HiRAG,通过创新的分层索引和分层检索机制,解决了现有图结构RAG系统中的语义关联和知识结构问题。实验证明,HiRAG在多个领域问答任务中表现优异,生成答案的完整性、信息量和逻辑连贯性得到显著提升。文章还讨论了方法的优势、局限性和未来工作方向。

关键观点总结

关键观点1: HiRAG框架解决了现有图结构RAG系统的两大挑战:语义相似实体结构关系疏远和全局与局部知识断层。

通过分层知识图谱和三级知识检索机制,HiRAG实现了语义关联与结构邻近的优化,成功桥接了不同知识层级间的语义鸿沟。

关键观点2: HiRAG的主要创新点包括分层索引(HiIndex)和分层检索(HiRetrieval)。

HiIndex通过构建分层知识图谱,增强语义相似实体间的连通性;HiRetrieval通过桥接层知识弥合实体描述与社区知识间的断层,为LLM提供全局、桥接及局部的三级上下文。

关键观点3: 实验证明HiRAG在多个数据集和评估维度上的性能优于基线方法。

在Mix、CS、Legal、Agriculture数据集上,HiRAG的综合胜率显著高于基线方法,验证了其在不同数据密度场景下的鲁棒性。

关键观点4: HiRAG具有动态适应层次数量的能力。

通过聚类稀疏度变化曲线和语义枢纽验证,HiRAG能够智能确定层次数量,适应不同领域的数据特点。

关键观点5: HiRAG在效率与成本分析方面表现出优势。

虽然索引构建成本较高,但检索阶段实现零Token消耗,平均响应时间控制在2秒以内,特别适用于需要快速响应的在线检索场景。


正文

请到「今天看啥」查看全文


大多数情况下,只需从外部图数据库 中检索最相关的子图 ,近似为:


The HiRAG Framework

Image

HiRAG由HiIndex和HiRetrieval两个模块组成。在HiIndex模块中,在不同层构造了一个知识粒度不同的层级KG。较高层中的摘要实体表示更粗粒度的高级知识,但它们可以增强较低层中语义相似实体之间的连通性。在HiRetrieval模块中,从每个检索到的社区中选择最相关的实体,并找到最短的路径将它们连接起来,作为连接本地和全局知识的桥梁级知识。然后,LLM将以这三个层次的知识为背景生成响应。

Indexing with Hierarchical Knowledge 层级知识索引

在HiIndex模块中,将输入文档索引为层级KG。首先,采用以实体为中心的三重提取来构建基本的KG 。具体来说,将输入文档分成一些重叠的文本块。这些块将通过设计的提示输入LLM,首先提取实体 。然后,LLM将根据相应文本块的信息在抽取的实体对之间生成关系(或边) 。基本的KG可以表示为:


基本KG也是层级KG的第0层。本文将第i层的实体(节点)集合表示为 ,其中 。为了构造分层KG的第i层,当i≥1时,首先获取分层KG的第(i−1)层中实体的嵌入表示用于捕捉语义相似性。,记为:


随后使用高斯混合模型(GMM)对 进行聚类,得到聚类







请到「今天看啥」查看全文