专栏名称: 腾讯科技
只供应最有营养的科技大餐!
目录
相关文章推荐
51好读  ›  专栏  ›  腾讯科技

Token已死?AI认知的新范式正在崛起

腾讯科技  · 公众号  · 科技媒体  · 2024-12-26 19:41

主要观点总结

本文介绍了Meta在人工智能领域的新研究,其正在尝试改变语言模型的“思考空间”,采用新的方法重塑AI的思维方式。文章详细描述了Meta的三种新的模型架构:大概念模型(LCM)、Byte Latent Transformer(BLT)和Coconut,它们都在尝试改变原有的token方式,让AI的思维方式更接近人类的思考方式。这些新的尝试为AI的发展开启了新的可能性,并可能带来AI的再次进化。

关键观点总结

关键观点1: Meta作为科技巨头,正在尝试改变语言模型的“思考空间”,其新研究在大语言模型界引发了一场范式变革。

Meta通过三种新的模型架构——大概念模型(LCM)、Byte Latent Transformer(BLT)和Coconut——来尝试改变原有的基于token的AI思维方式。这些新的方法旨在让AI的思维方式更接近人类的思考方式,从而带来更高的创造性和适应性。

关键观点2: 大概念模型(LCM)是Meta的一项重大尝试,它试图粘合符号主义和连接主义,让AI在语义空间中进行推理和生成。

LCM通过概念化训练,让大模型直接学习概念,从而改变了原有的基于token的训练方式。这种方法提高了模型的语义理解能力,并在跨语言和长文本生成任务上展现出优势。然而,它在文本扩展任务上的表现可能不如传统的LLM。

关键观点3: Byte Latent Transformer(BLT)是Meta的另一项创新,它试图用字节取代token作为潜空间的核心表征。

BLT通过动态字节包(patchs)进行训练,这种方法能够更好地利用计算量,并准确还原字节间的关系。此外,patch比token更容易扩展,这避免了静态token词表的限制。

关键观点4: Coconut是一种在思维链中推理的新方法,它避免了将中间推理过程转换为具体的语言token。

Coconut允许模型在“想法”的空间中直接推理,而不是将每一步都转换为具体的语言来表达。这种方法提高了大语言模型的推理能力,并在部分测试项目上表现出超越传统CoT的能力。


正文

请到「今天看啥」查看全文


让大模型直接学概念


Meta研究团队的思路其实很简单:让大模型直接学概念,其实就是把句子还原成一组组概念的序列去训练它,取代原来token序列的训练。
这个概念转换的工具,Meta用的是SONAR。
它是一个编译器,能够将文本映射到概念空间,生成1024维的向量来表示这个概念,而相似的概念在这个潜在空间里就会比较接近。因为它的概念化能力,SONAR模型本身就可以在200种语言之间进行语言翻译。

(SONAR的基本运作逻辑)

SONAR是在token和最终理解之间搭建了一座桥梁,让模型既能跳过token,直接把握更高层的语义关联。LCM所接受和输出的就只有概念向量。 有了这个概念层抽象,关键问题是如何设计一个能够处理概念的模型架构。 研究团队详细探索了三种方案:
第一种是基础LCM架构。在这个方案中,前置网络(SONAR)首先处理输入文本的token序列,将其映射到概念空间中的向量表示。一个Transformer模型接收概念向量,然后预测之后的概念向量。最后,后置网络(SONAR)接收这个概念表示,尝试生成对应的目标语言表达。

用更容易理解的方式表达就是:

这种架构的优点是结构清晰,训练相对稳定,但存在信息瓶颈问题:所有的语义信息都必须通过中间的概念向量传递,容易造成信息损失。
比如看到"我今天很开心",后面可能跟:"因为考了满分","因为见到了朋友","因为收到了礼物"。模型会倾向预测一个"中间状态"。把所有可能的回答混在一起, 结果可能变得模糊不清。
Base-LCM就像一个只会给"标准答案"的学生,缺少创造力和随机性。
第二种是Quant-LCM架构。在这个方案中,模型会把SONAR提供的概念层再做一遍向量化,把连续概念重新打散成离散码本。比如描述"苹果",原来SONAR是把这个概念做成一个1024维的向量来精确描述每个特征,但在Quant-LCM中,它就只用红色, 圆形, 水果, 甜味这么几个简单的特征码去描述“苹果”。
这样计算更快更简单,也更有创造力。因为这就像是用用基本词汇组合新句子。但精度损失会比较明显,模型效能不怎么好。

鉴于前两种方法的劣势太明显,Meta最终采用了第三种方法:Diffusion双塔架构。这个架构包含两个主要组件:左边的塔和Basic LCM的结构一样,就像一个写文章框架的人,力求概念准确。另一座塔(Diffsuion去噪器)就像是一个编辑,负责润色和丰富用词。

(Diffusion双塔结构示意)
Diffusion去噪器的工作方式有点像是一个反复推敲的编辑:先把得到的信息故意"弄模糊"(加噪),然后再通过一步步的提炼(去噪)来重建内容。
在训练过程中,系统还使用了一个特殊的掩码策略,这就是图右边那个看似复杂的矩阵表示的内容。这个策略有点像是给系统设置不同难度的"练习题":有时候让它看到完整的上下文来工作,有时候(比如图中红色标注的那行)则刻意遮住一些信息,让系统学会在信息不完整的情况下也能工作。这种训练方法帮助系统建立起更强的适应能力和鲁棒性。
这样一座双塔结构就可以避免Basic LCM过分古板的问题,用Diffusion给它增加了足够的随机性和细节。
这是三种方法中最好的一种。
经Meta的研究者测试,LCM在多个标准评测任务上都展现出了优秀的性能,尤其在跨语言和长文本生成任务上展现出一定优势。这是因为概念本身的链接比token的链接覆盖的范围更大,我们也可以推测大模型的语义理解通过这一训练得到了加强。






请到「今天看啥」查看全文