主要观点总结
本文主要介绍了在模型应用阶段,企业“上云用模”面临的数据可控和环境可信的两重顾虑,以及如何通过检索增强(RAG)技术解决这些问题。文章还讨论了RAG的技术特点,包括其框架、外部知识的引入、应用场景等。最后,文章提出以动态、发展的眼光看待模型应用阶段的数据安全。
关键观点总结
关键观点1: 企业‘上云用模’面临的数据可控和环境可信的两重顾虑。
企业在使用模型进行数据处理时,对于数据的可控性和环境的可信度存在担忧,主要体现在数据安全、隐私保护等方面。
关键观点2: 检索增强(RAG)技术可以解决企业‘上云用模’的安全挑战。
RAG技术可以在不改变模型通用能力的前提下,通过在模型应用阶段引入外部知识,增强大模型生成内容对具体场景的适配度,实现数据可控、操作可审、责任可追。
关键观点3: RAG的技术特点包括索引-检索-生成的基本原理和模块化应用。
RAG通过索引、检索和生成三个步骤,对外部知识进行向量化索引,帮助提高大模型输出内容的专业性和准确性。模块化应用则增强了整体灵活性,可以根据需求进行个性化配置。
关键观点4: 云端部署RAG知识库的意义在于企业可以基于自身商业利益考虑,自主选择是否允许他人调用自己企业的内部数据。
通过保障安全性和可控性下的数据共享机制,有助于打通产业链上下游的数据,提高数据使用效率。
关键观点5: 应以动态、发展的眼光看待模型应用阶段的数据安全问题。
在技术演进为模型用数安全带来新的路径和解决方案的同时,也需要制定云上用数的标准规范解决企业顾虑,从事中、事后的角度进行科学评估和措施管控。
正文
检索增强的基本原理是对外部知识进行向量化索引,在利用大模型生成内容之前,通过对输入的提示词进行分析和检索,为大模型提供更为全面、准确、充分的上下文知识,以帮助提高大模型输出内容的专业性和准确性
。RAG的步骤主要分为三步:
第一是索引(Indexing)
,类似于对图书馆中的藏书建立目录和索引系统,索引阶段需要处理引入的知识库或文档集合(比如企业内部数据库、网页、专业书籍摘录等),对原始语料清洗、提取、分块,对每块语料进行特征提取向量化,最后针对全部语料对应的向量集构建索引。
第二步是检索(Retrieval)
,将用户对大模型输入的提示词(Query)做向量化处理,利用索引信息快速检索出与用户的问题向量距离最近似的若干语料。换句话说,面对提问时不会立即生成答案,而是先在知识库中检索,寻找与问题最相关的知识,就像是在图书馆根据关键词先快速找到相关书籍。
第三步是生成(Generation)
,将用户原始提示与检索到的高相关度向量块一起作为上下文输入给大模型,最终生成答案。整个过程中并不涉及对模型的训练和调优,因此参数不变。
此外,实际应用中并不是所有场景都需要引入RAG,触发RAG的情况可以分为以下几种:一是大模型可以自己判断,比如评估生成内容概率分布的置信区间,小于阈值会自动触发RAG;二是用户要求从指定来源中获取答案。
基于基础框架升级还可以进一步提升RAG弹性能力,实现可优化、可扩展和易操作。首先是提升检索环节的精准度和相关性
。比如在检索前(Pre-Retrieval),对用户Query改写、扩展、转换,让用户的提问更清晰,与知识库内容进行更精准匹配。
其次是模块化的RAG,也就是将各种功能解耦,作为独立的模块进行处理,增强整体灵活性
。例如仅通过一次RAG流程提供的信息范围有限,难以解决多步骤推理的复杂问题。因此演化出自适应检索,利用大模型生成的特殊Token进行控制,使系统自主判断是否需要外部检索,以及何时停止检索。
再次是在开发RAG应用框架时更开放,为用户提供个性化配置的选择
。从用户视角看,RAG流程通常是黑盒,参数不可见不可修改。而应用中,更开放的框架可以满足对RAG个性化的需求,提升检索的相关性和可控性。例如阿里巴巴集团的百炼平台,在调用RAG时基于Llama Index开源框架,支持低代码构建、为用户提供开放灵活的配置,支持不同的组件和知识库模板选择。
RAG技术的核心目标是在不改变大模型现有能力的基础上,根据用户的提示词信息在企业数据中进行知识检索,为大模型引入更精确、专业、适合具体场景的知识。RAG可读取的数据类型较为广泛,包含非结构化、半结构化、结构化三种。非结构化数据最为常见,包含文本(如百科类、领域知识库/论文等),以及图片、视频、音频等多模态数据;半结构化通常包含文字与表格的内容;结构化数据则以知识图谱为主,这些利用企业已经整理提炼的存量数据形成的知识可以提供更精确的信息。通过向量数据库等方法,将以上各种类型的数据都转化为统一的数值向量的表达形式,便于利用企业内部知识进行RAG的分析和调用。由此,通过RAG解决了对秘密属性数据能在应用中使用但不便于训练的问题。因为这些数据如果用于微调,会带来较高的训练成本,且更新存在滞后;另外训练后会使模型提供方和企业之间的权责边界变得模糊。
面对从训练走向应用中数据利用面临的安全挑战,RAG可以兼顾商秘保护与高效利用,提供从模型“训得强”到“用得好”的场景化解决方案,解决数据“能用不能训”的问题。