正文
LCM 采用了概念优先的方法,在进行数据驱动的学习之前,根据高层次的概念来理解和构建知识。这种方法并非完全依赖大量的非结构化数据,而是确保模型在进一步训练之前,对给定领域内的关键原则、关系和层次结构有一个基础性的理解。
这种概念优先的方法赋予了 LCM 在不同语言和语境中泛化知识的强大能力,使其远超 LLM。例如,经过英语医学数据训练的 LCM 能够用斯瓦希里语诊断疾病——不是通过简单的直接翻译,而是通过识别普遍的医学概念。
LCM 标志着 AI 的进化方向,关注意义而非单纯的单词模式,从流畅的文本生成转向真正的理解和推理。
大概念模型建立在一种混合架构之上,这种架构结合了结构化的知识表示和神经网络的适应性。这使它们能够在处理现实世界的复杂性的同时进行逻辑推理,这是纯统计 AI 模型的一个进步。
LCM 的核心是一个结构化、层次化的流程。输入文本首先被分解为句子,这些句子被视为基本的概念单位。然后,这些句子通过 SONAR 进行处理。
大型概念模型的基本架构(
来源)
经过编码后,概念序列由完全在嵌入空间中运行的模型处理。这种与语言无关的方法使 LCM 能够在不受任何特定语言或输入格式限制的情况下进行推理,使它们能够超越文本和语音。生成的概念随后通过 SONAR 解码回语言或其他模态,使模型能够以多种语言或格式输出,而无需重新运行模型。
在这个领域出现了两种关键架构:基础 LCM(Base-LCM),即最初的尝试,以及基于扩散的 LCM(Diffusion-Based LCM),一种受图像生成技术启发的高级版本。两者都利用了这种结构化的流程,确保 AI 响应更具逻辑性且能够感知上下文。
基础 LCM 架构是大型概念模型的第一步。它的工作原理与大语言模型类似,但不是预测“下一个单词”,而是预测结构化概念空间中的“下一个概念”。
模型接收一系列概念,并学习预测下一个概念。它使用基于 Transformer 的架构,并增加了额外的层:
基础 LCM 架构图(
来源)
训练过程通过最小化预测概念和实际概念之间的误差来实现,使用了均方误差(MSE)损失。
Diffusion-Based LCM——更智能的概念预测方式
受图像生成扩散模型的启发,这种架构通过逐步消除“不确定性”或“噪声”来完善下一个概念的预测。
Diffusion-Based LCM 的工作原理
以从随机噪声中生成一张猫的图像为例——每一步都消除噪声,直到出现清晰的图像。Diffusion-Based LCM 将同样的想法应用于概念预测,通过多个步骤逐步完善预测。
以下是两种 Diffusion-based LCM 的方法:
Diffusion-based LCM 架构图示 | 左侧——单塔 LCM | 右侧——双塔 LCM。(
来源)
研究表明,Diffusion-based LCM 在 ROUGE-L 分数(衡量模型在生成摘要中保持意义的能力)和连贯性分数(评估预测的逻辑流程和一致性)方面显著优于基础 LCM。
基础 LCM 和 Diffusion-Based LCM 的局限性
基础 LCM 架构的主要问题是,LCM 在表示概念时使用的是固定的嵌入空间(如 SONAR),因此它难以处理模糊性。它更适用于处理简单且较短的句子,但在处理复杂且关系松散的句子时会遇到困难。此外,它无法可靠地处理数字、链接或代码。另一个问题是,有时候一个句子可能包含多个概念,但模型会将其视为一个单一的概念。在许多情况下,给定输入之后可能存在多个逻辑上合理的概念,但模型只能选择一个。这些局限性催生了 Diffusion-Based LCM,后者能够更有效地处理多种可能性。
Diffusion-based LCM 在处理多种可能的输出方面优于基础 LCM,但它们也存在一些局限性。扩散模型更适合用于处理连续数据(如图像或音频),然而文本数据具有更强的结构化和离散性特征。这使得扩散模型更难生成准确或有意义的文本结果。Meta 尝试通过量化模型(如 Quant-LCM)来解决这一问题,但 SONAR 空间并非为量化而设计,因此量化后的结果往往较为复杂,且难以有效应对数据稀疏性问题。
在 Meta 的消融实验中,Diffusion-based 优于 Quant-LCM,我没有在本文未包含这些模型的详细信息。为了实现进一步改进,迫切需要开发一种更优的文本表示方法,以在结构化和灵活性之间达到更好的平衡。
大概念模型的概念理解、结构化推理和多步逻辑思维能力使其更适合被用于需要更复杂推理、上下文和概念的应用中。接下来,我们将详细讨论基于我当前项目经验的两个 LCM 的实际应用场景。