专栏名称: InfoQ
有内容的技术社区媒体。
目录
相关文章推荐
新浪科技  ·  【#曝尊界S800大定均价破100万元#】博 ... ·  2 天前  
新浪科技  ·  【#智谱COO张帆即将离职#】智谱AI ... ·  2 天前  
51好读  ›  专栏  ›  InfoQ

大概念模型:AI 推理的新范式

InfoQ  · 公众号  · 科技媒体  · 2025-05-30 14:22

正文

请到「今天看啥」查看全文


概念优先的方法

LCM 采用了概念优先的方法,在进行数据驱动的学习之前,根据高层次的概念来理解和构建知识。这种方法并非完全依赖大量的非结构化数据,而是确保模型在进一步训练之前,对给定领域内的关键原则、关系和层次结构有一个基础性的理解。

这种概念优先的方法赋予了 LCM 在不同语言和语境中泛化知识的强大能力,使其远超 LLM。例如,经过英语医学数据训练的 LCM 能够用斯瓦希里语诊断疾病——不是通过简单的直接翻译,而是通过识别普遍的医学概念。

LCM 标志着 AI 的进化方向,关注意义而非单纯的单词模式,从流畅的文本生成转向真正的理解和推理。

大概念模型——架构

大概念模型建立在一种混合架构之上,这种架构结合了结构化的知识表示和神经网络的适应性。这使它们能够在处理现实世界的复杂性的同时进行逻辑推理,这是纯统计 AI 模型的一个进步。

LCM 的核心是一个结构化、层次化的流程。输入文本首先被分解为句子,这些句子被视为基本的概念单位。然后,这些句子通过 SONAR 进行处理。

大型概念模型的基本架构( 来源)

经过编码后,概念序列由完全在嵌入空间中运行的模型处理。这种与语言无关的方法使 LCM 能够在不受任何特定语言或输入格式限制的情况下进行推理,使它们能够超越文本和语音。生成的概念随后通过 SONAR 解码回语言或其他模态,使模型能够以多种语言或格式输出,而无需重新运行模型。

在这个领域出现了两种关键架构:基础 LCM(Base-LCM),即最初的尝试,以及基于扩散的 LCM(Diffusion-Based LCM),一种受图像生成技术启发的高级版本。两者都利用了这种结构化的流程,确保 AI 响应更具逻辑性且能够感知上下文。

基础 LCM——第一步

基础 LCM 架构是大型概念模型的第一步。它的工作原理与大语言模型类似,但不是预测“下一个单词”,而是预测结构化概念空间中的“下一个概念”。

基础 LCM 的工作原理

模型接收一系列概念,并学习预测下一个概念。它使用基于 Transformer 的架构,并增加了额外的层:

  • 预处理网络(PreNet) :调整概念嵌入。

  • Transformer 解码器 :处理概念之间的关系。

  • 后处理网络(PostNet) :将输出映射回原始概念空间。

基础 LCM 架构图( 来源)

训练过程通过最小化预测概念和实际概念之间的误差来实现,使用了均方误差(MSE)损失。

Diffusion-Based LCM——更智能的概念预测方式

受图像生成扩散模型的启发,这种架构通过逐步消除“不确定性”或“噪声”来完善下一个概念的预测。

Diffusion-Based LCM 的工作原理

以从随机噪声中生成一张猫的图像为例——每一步都消除噪声,直到出现清晰的图像。Diffusion-Based LCM 将同样的想法应用于概念预测,通过多个步骤逐步完善预测。

以下是两种 Diffusion-based LCM 的方法:

  • 单塔 LCM ——在这种方法中,模型处理一系列概念,只有最后一个概念是“嘈杂的”(不确定的)。然后,逐步细化这个嘈杂的概念,直到得出清晰的预测。这与基础 LCM 类似,不同的是它通过运行多个细化步骤来改进预测。

  • 双塔 LCM ——在这种方法中,模型将上下文编码与概念细化分离开来。第一个模型理解前面的概念,而第二个模型对下一个概念进行去噪。然后,模型使用交叉注意力机制来提高预测的准确性。

Diffusion-based LCM 架构图示 | 左侧——单塔 LCM | 右侧——双塔 LCM。( 来源)

研究表明,Diffusion-based LCM 在 ROUGE-L 分数(衡量模型在生成摘要中保持意义的能力)和连贯性分数(评估预测的逻辑流程和一致性)方面显著优于基础 LCM。

基础 LCM 和 Diffusion-Based LCM 的局限性

基础 LCM 架构的主要问题是,LCM 在表示概念时使用的是固定的嵌入空间(如 SONAR),因此它难以处理模糊性。它更适用于处理简单且较短的句子,但在处理复杂且关系松散的句子时会遇到困难。此外,它无法可靠地处理数字、链接或代码。另一个问题是,有时候一个句子可能包含多个概念,但模型会将其视为一个单一的概念。在许多情况下,给定输入之后可能存在多个逻辑上合理的概念,但模型只能选择一个。这些局限性催生了 Diffusion-Based LCM,后者能够更有效地处理多种可能性。

Diffusion-based LCM 在处理多种可能的输出方面优于基础 LCM,但它们也存在一些局限性。扩散模型更适合用于处理连续数据(如图像或音频),然而文本数据具有更强的结构化和离散性特征。这使得扩散模型更难生成准确或有意义的文本结果。Meta 尝试通过量化模型(如 Quant-LCM)来解决这一问题,但 SONAR 空间并非为量化而设计,因此量化后的结果往往较为复杂,且难以有效应对数据稀疏性问题。

在 Meta 的消融实验中,Diffusion-based 优于 Quant-LCM,我没有在本文未包含这些模型的详细信息。为了实现进一步改进,迫切需要开发一种更优的文本表示方法,以在结构化和灵活性之间达到更好的平衡。

大概念模型的实际应用

大概念模型的概念理解、结构化推理和多步逻辑思维能力使其更适合被用于需要更复杂推理、上下文和概念的应用中。接下来,我们将详细讨论基于我当前项目经验的两个 LCM 的实际应用场景。

高级客户支持工单与解决方案






请到「今天看啥」查看全文