Token已死？AI认知的新范式正在崛起

腾讯科技 · 公众号 · 科技媒体 · 2024-12-26 19:41

主要观点总结

本文介绍了Meta在人工智能领域的新研究，其正在尝试改变语言模型的“思考空间”，采用新的方法重塑AI的思维方式。文章详细描述了Meta的三种新的模型架构：大概念模型（LCM）、Byte Latent Transformer（BLT）和Coconut，它们都在尝试改变原有的token方式，让AI的思维方式更接近人类的思考方式。这些新的尝试为AI的发展开启了新的可能性，并可能带来AI的再次进化。

关键观点总结

关键观点1: Meta作为科技巨头，正在尝试改变语言模型的“思考空间”，其新研究在大语言模型界引发了一场范式变革。

Meta通过三种新的模型架构——大概念模型（LCM）、Byte Latent Transformer（BLT）和Coconut——来尝试改变原有的基于token的AI思维方式。这些新的方法旨在让AI的思维方式更接近人类的思考方式，从而带来更高的创造性和适应性。

关键观点2: 大概念模型（LCM）是Meta的一项重大尝试，它试图粘合符号主义和连接主义，让AI在语义空间中进行推理和生成。

LCM通过概念化训练，让大模型直接学习概念，从而改变了原有的基于token的训练方式。这种方法提高了模型的语义理解能力，并在跨语言和长文本生成任务上展现出优势。然而，它在文本扩展任务上的表现可能不如传统的LLM。

关键观点3: Byte Latent Transformer（BLT）是Meta的另一项创新，它试图用字节取代token作为潜空间的核心表征。

BLT通过动态字节包（patchs）进行训练，这种方法能够更好地利用计算量，并准确还原字节间的关系。此外，patch比token更容易扩展，这避免了静态token词表的限制。

关键观点4: Coconut是一种在思维链中推理的新方法，它避免了将中间推理过程转换为具体的语言token。

Coconut允许模型在“想法”的空间中直接推理，而不是将每一步都转换为具体的语言来表达。这种方法提高了大语言模型的推理能力，并在部分测试项目上表现出超越传统CoT的能力。

正文

请到「今天看啥」查看全文

让大模型直接学概念

Meta研究团队的思路其实很简单：让大模型直接学概念，其实就是把句子还原成一组组概念的序列去训练它，取代原来token序列的训练。

这个概念转换的工具，Meta用的是SONAR。

它是一个编译器，能够将文本映射到概念空间，生成1024维的向量来表示这个概念，而相似的概念在这个潜在空间里就会比较接近。因为它的概念化能力，SONAR模型本身就可以在200种语言之间进行语言翻译。

（SONAR的基本运作逻辑）

SONAR是在token和最终理解之间搭建了一座桥梁，让模型既能跳过token，直接把握更高层的语义关联。LCM所接受和输出的就只有概念向量。

有了这个概念层抽象，关键问题是如何设计一个能够处理概念的模型架构。研究团队详细探索了三种方案：

第一种是基础LCM架构。在这个方案中，前置网络（SONAR）首先处理输入文本的token序列，将其映射到概念空间中的向量表示。一个Transformer模型接收概念向量，然后预测之后的概念向量。最后，后置网络（SONAR）接收这个概念表示，尝试生成对应的目标语言表达。

用更容易理解的方式表达就是：

这种架构的优点是结构清晰，训练相对稳定，但存在信息瓶颈问题：所有的语义信息都必须通过中间的概念向量传递，容易造成信息损失。

比如看到"我今天很开心"，后面可能跟："因为考了满分"，"因为见到了朋友"，"因为收到了礼物"。模型会倾向预测一个"中间状态"。把所有可能的回答混在一起，结果可能变得模糊不清。

Base-LCM就像一个只会给"标准答案"的学生，缺少创造力和随机性。

第二种是Quant-LCM架构。在这个方案中，模型会把SONAR提供的概念层再做一遍向量化，把连续概念重新打散成离散码本。比如描述"苹果"，原来SONAR是把这个概念做成一个1024维的向量来精确描述每个特征，但在Quant-LCM中，它就只用红色，圆形，水果，甜味这么几个简单的特征码去描述“苹果”。

这样计算更快更简单，也更有创造力。因为这就像是用用基本词汇组合新句子。但精度损失会比较明显，模型效能不怎么好。

鉴于前两种方法的劣势太明显，Meta最终采用了第三种方法：Diffusion双塔架构。这个架构包含两个主要组件：左边的塔和Basic LCM的结构一样，就像一个写文章框架的人，力求概念准确。另一座塔（Diffsuion去噪器）就像是一个编辑，负责润色和丰富用词。

（Diffusion双塔结构示意）

Diffusion去噪器的工作方式有点像是一个反复推敲的编辑：先把得到的信息故意"弄模糊"（加噪），然后再通过一步步的提炼（去噪）来重建内容。

在训练过程中，系统还使用了一个特殊的掩码策略，这就是图右边那个看似复杂的矩阵表示的内容。这个策略有点像是给系统设置不同难度的"练习题"：有时候让它看到完整的上下文来工作，有时候（比如图中红色标注的那行）则刻意遮住一些信息，让系统学会在信息不完整的情况下也能工作。这种训练方法帮助系统建立起更强的适应能力和鲁棒性。

这样一座双塔结构就可以避免Basic LCM过分古板的问题，用Diffusion给它增加了足够的随机性和细节。

这是三种方法中最好的一种。

经Meta的研究者测试，LCM在多个标准评测任务上都展现出了优秀的性能，尤其在跨语言和长文本生成任务上展现出一定优势。这是因为概念本身的链接比token的链接覆盖的范围更大，我们也可以推测大模型的语义理解通过这一训练得到了加强。