专栏名称: OSC开源社区
OSChina 开源中国 官方微信账号
目录
51好读  ›  专栏  ›  OSC开源社区

2024: 大模型背景下知识图谱的理性回归

OSC开源社区  · 公众号  · 程序员  · 2025-02-21 16:16

正文

请到「今天看啥」查看全文


然而,大模型幻觉、数据时效性、隐私安全、以及推理解释性等问题并没有随着模型能力越来越强而消失,这些问题仍然存在并严重阻碍着大语言模型在垂直领域的应用。这也造就了模型越来越强,垂直领域的杀手级应用依然没有出现的怪象。
为了应对这些问题挑战,行业及社区都在不断的积极探索外部知识库与大型语言模型的方式来寻找解决方案。在此过程中,涌现出了许多出色的开源项目,它们的技术路径大致可以分为两类:一类是基于搜索引擎技术的改进,另一类则是基于知识图谱技术的发展。
以搜索引擎为基础的演进
2024 年有多个搜索引擎为基础的 RAG 框架发布并取得比较大的关注,包括 QAnything、Ragflow、MaxKB 等近 20 个开源框架。这类都是比较经典的方法,以搜索引擎的向量检索和文本检索为基础为大语言模型提供外挂的文本知识库,能够在保证垂直领域数据隐私安全的前提下,将私域知识与大语言模型有效融合提升垂直领域的应用效率。RAG 开源项目通常集 Chunk 切分、向量化、存储、检索、生成等几个阶段于一体,其核心在于其中的不同策略适应和优化,如文档处理、检索策略等。
以搜索引擎为基础的演进方案以文档检索为开始,以大语言模型的生成为终。RAG 回答问题的准确率受限于召回的 Chunks 和 LLM 的生成能力,也受限于搜索引擎向量相似度计算的不足,传统搜索引擎解决不了的问题,如难以感知文档间细粒度的实体知识关联、无法对文档内知识的知识要素执行逻辑推理等,这类 RAG 方法依然解决不了。这也让开发者陷入了 “一周出 demo,半年用不好” 的困境。为克服以搜索引擎为基础方法在向量计算和逻辑推理方面的不足,业界也涌现出了越来越多基于知识图谱的方案。
以知识图谱为基础的演进
知识图谱技术是 2012 年 Google 为改善搜索引擎的质量和相关性而提出的,他能够构建并理解实体及其之间的关系,能够整合不同来源的文档实现跨文档的实体关联,这使得知识图谱可以对用户查询提供更加精确和语境化的回答,可以突破向量计算的瓶颈而执行多步推理、逻辑推理。尽管有这些优势,知识图谱因其较高的构建和维护成本高,过去这几年也遭到了较多的诟病。
大模型技术的出现,为知识图谱技术的发展提供了新的机遇窗口。如何充分利用大语言模型的能力来克服知识图谱的不足,并充分发挥知识图谱的优势?2024 年,涌现出了多个不错的开源项目并获得了广泛的关注。
以 GraphRAG 为代表增强文档间语义关联
2024 年初有两个非常有代表性的工作,微软发布的 GraphRAG 和俄亥俄州立大学发布的 HippoRAG。两者都引入了知识图谱的方法通过开放信息抽取 (OpenIE) 来构建跨文档的细粒度语义关联以期缓解 RAG 在这方面的不足。






请到「今天看啥」查看全文