大概念模型：AI 推理的新范式

InfoQ · 公众号 · 科技媒体 · 2025-05-30 14:22

正文

请到「今天看啥」查看全文

概念优先的方法

LCM 采用了概念优先的方法，在进行数据驱动的学习之前，根据高层次的概念来理解和构建知识。这种方法并非完全依赖大量的非结构化数据，而是确保模型在进一步训练之前，对给定领域内的关键原则、关系和层次结构有一个基础性的理解。

这种概念优先的方法赋予了 LCM 在不同语言和语境中泛化知识的强大能力，使其远超 LLM。例如，经过英语医学数据训练的 LCM 能够用斯瓦希里语诊断疾病——不是通过简单的直接翻译，而是通过识别普遍的医学概念。

LCM 标志着 AI 的进化方向，关注意义而非单纯的单词模式，从流畅的文本生成转向真正的理解和推理。

大概念模型——架构

大概念模型建立在一种混合架构之上，这种架构结合了结构化的知识表示和神经网络的适应性。这使它们能够在处理现实世界的复杂性的同时进行逻辑推理，这是纯统计 AI 模型的一个进步。

LCM 的核心是一个结构化、层次化的流程。输入文本首先被分解为句子，这些句子被视为基本的概念单位。然后，这些句子通过 SONAR 进行处理。

大型概念模型的基本架构（ 来源）

经过编码后，概念序列由完全在嵌入空间中运行的模型处理。这种与语言无关的方法使 LCM 能够在不受任何特定语言或输入格式限制的情况下进行推理，使它们能够超越文本和语音。生成的概念随后通过 SONAR 解码回语言或其他模态，使模型能够以多种语言或格式输出，而无需重新运行模型。

在这个领域出现了两种关键架构：基础 LCM（Base-LCM），即最初的尝试，以及基于扩散的 LCM（Diffusion-Based LCM），一种受图像生成技术启发的高级版本。两者都利用了这种结构化的流程，确保 AI 响应更具逻辑性且能够感知上下文。

基础 LCM——第一步

基础 LCM 架构是大型概念模型的第一步。它的工作原理与大语言模型类似，但不是预测“下一个单词”，而是预测结构化概念空间中的“下一个概念”。

基础 LCM 的工作原理

模型接收一系列概念，并学习预测下一个概念。它使用基于 Transformer 的架构，并增加了额外的层：

预处理网络（PreNet）：调整概念嵌入。
Transformer 解码器：处理概念之间的关系。
后处理网络（PostNet）：将输出映射回原始概念空间。

基础 LCM 架构图（ 来源）

训练过程通过最小化预测概念和实际概念之间的误差来实现，使用了均方误差（MSE）损失。

Diffusion-Based LCM——更智能的概念预测方式

受图像生成扩散模型的启发，这种架构通过逐步消除“不确定性”或“噪声”来完善下一个概念的预测。

Diffusion-Based LCM 的工作原理

以从随机噪声中生成一张猫的图像为例——每一步都消除噪声，直到出现清晰的图像。Diffusion-Based LCM 将同样的想法应用于概念预测，通过多个步骤逐步完善预测。

以下是两种 Diffusion-based LCM 的方法：

单塔 LCM ——在这种方法中，模型处理一系列概念，只有最后一个概念是“嘈杂的”（不确定的）。然后，逐步细化这个嘈杂的概念，直到得出清晰的预测。这与基础 LCM 类似，不同的是它通过运行多个细化步骤来改进预测。
双塔 LCM ——在这种方法中，模型将上下文编码与概念细化分离开来。第一个模型理解前面的概念，而第二个模型对下一个概念进行去噪。然后，模型使用交叉注意力机制来提高预测的准确性。

Diffusion-based LCM 架构图示 | 左侧——单塔 LCM | 右侧——双塔 LCM。（ 来源）

研究表明，Diffusion-based LCM 在 ROUGE-L 分数（衡量模型在生成摘要中保持意义的能力）和连贯性分数（评估预测的逻辑流程和一致性）方面显著优于基础 LCM。

基础 LCM 和 Diffusion-Based LCM 的局限性

基础 LCM 架构的主要问题是，LCM 在表示概念时使用的是固定的嵌入空间（如 SONAR），因此它难以处理模糊性。它更适用于处理简单且较短的句子，但在处理复杂且关系松散的句子时会遇到困难。此外，它无法可靠地处理数字、链接或代码。另一个问题是，有时候一个句子可能包含多个概念，但模型会将其视为一个单一的概念。在许多情况下，给定输入之后可能存在多个逻辑上合理的概念，但模型只能选择一个。这些局限性催生了 Diffusion-Based LCM，后者能够更有效地处理多种可能性。

Diffusion-based LCM 在处理多种可能的输出方面优于基础 LCM，但它们也存在一些局限性。扩散模型更适合用于处理连续数据（如图像或音频），然而文本数据具有更强的结构化和离散性特征。这使得扩散模型更难生成准确或有意义的文本结果。Meta 尝试通过量化模型（如 Quant-LCM）来解决这一问题，但 SONAR 空间并非为量化而设计，因此量化后的结果往往较为复杂，且难以有效应对数据稀疏性问题。

在 Meta 的消融实验中，Diffusion-based 优于 Quant-LCM，我没有在本文未包含这些模型的详细信息。为了实现进一步改进，迫切需要开发一种更优的文本表示方法，以在结构化和灵活性之间达到更好的平衡。

大概念模型的实际应用

大概念模型的概念理解、结构化推理和多步逻辑思维能力使其更适合被用于需要更复杂推理、上下文和概念的应用中。接下来，我们将详细讨论基于我当前项目经验的两个 LCM 的实际应用场景。

高级客户支持工单与解决方案