专栏名称: 哲学园

哲学是爱智慧，爱智慧乃是对心灵的驯化。这里是理念的在场、诗意的栖居地。关注哲学园，认识你自己。

大语言模型的涌现

哲学园 · 公众号 · 哲学 · 2025-06-15 00:00

正文

请到「今天看啥」查看全文

程序执行

考虑涉及多个步骤的计算任务，例如大数相加或执行计算机程序。有研究者展示了通过微调语言模型以预测中间输出：草稿本(Scratchpad)技术是一种令模型在输出最终答案之前将问题分解为多个中间步骤的技术，和思维链技术不同，草稿本的中间步骤可以不使用自然语言，也可以不暴露给用户，就像是打草稿。这种技术能使模型更有效地执行多步骤计算任务 ^[25] 。研究发现，在8位数相加任务中，使用草稿本技术仅仅对训练FLOPs约为9×10 ¹⁹ （40M参数）或更大的模型有帮助（如图C所示）。

模型校准（Calibration）

模型校准能够衡量模型预测其回答正确率的能力，代表了模型回答问题的可靠程度。举个例子，当模型给出回答A的采样概率是90%时，说明它有九成把握自己做对了，而如果实际情况真的是10次问题中有9次做对了，说明模型有很高的校准能力。研究者使用平均校准误差（Expected Calibration Error，ECE）来度量模型校准能力的大小。有研究者比较了两种衡量校准的情境 ^[32] ：一种是T/F判断题，在提示中会给出一段陈述，让模型给出“正确”或者“错误”的回答。另一种则是单选题，让大模型直接在多个选项中选择正确的答案。如图D所示，在二选一的情境下，模型在大约3×10 ²³ 训练FLOPs（52B参数）的时候出现了涌现现象，而单选题的情境下模型校准能力一直以幂律的形式平滑增长。

3. 基于下游任务的涌现的影响因素及争议

上述提及的大语言模型涌现现象在判定上始终围绕两个关键特征：度量结果的突变性和突变的不可预测性 ^[33] 。而这并不意味着它一定是关于模型性质的度量。涌现现象的发生，可能只是研究者的选择所造成的幻觉 ^[33] 。

所谓幻觉是指大模型的涌现现象来自人为的度量指标选择。非线性的或不连续的度量导致我们观察到模型能力的突变和涌现，如果改变度量，则会观察到模型能力的连续变化。这一点可以通过对不同度量方式的定性分析而展现 ^[33] ：比如，假设模型有N个参数(N>0)，模型的每token的交叉熵随参数量增加而以幂函数的形式下降：

假设存在一个真实的但未知的概率分布 $p$ 以及一个具有N个参数的模型，它给出的预测分布为，根据交叉熵的定义： , 其中 $V$ 是可能的tokens的集合。由于p是未知的，可以用观测token $v *$ 的one-hot分布来替代，于是得到

因此模型在给定输入的情况下，正确预测出单个token的概率为：

如下图a所示，此时模型能力的度量指标（ $p (s i n g l e t o k e n c o r r e c t)$ 随模型规模(模型参数量 $N$ )的变化可以得到平缓增长的曲线。而若某任务是L位整数加法，当模型输出正确结果时，记录模型正确率为1，否则记为0，则此时模型的性能和模型参数量的关系为：

如下图b所示，可以观察到在一个线性-对数图中，只是因为度量的变化，我们就观察到了模型能力随模型规模增大而非线性增长的曲线，即呈现出了涌现能力的现象。这一模式和已发表的涌现现象（图b里的小图）是一致的。而如果我们把上面的正确率指标换成线性的指标，比如token编辑距离(Token Edit Distance)，如下图c所示，则会发现模型能力又随模型规模展现出平滑、连续和可预测的变化，即未出现涌现现象。

依据类似的分析，研究者认为选择非连续的度量，就会发现涌现现象；如果换用连续度量，就不会有涌现现象 ^[33] 。

总之，一些突变且不可预测的模型能力提升可以被如下因素所解释 ^[33] ：

1. 研究者采用了和每token错误率成非线性或非连续关系的度量指标，导致以每token错误率衡量的规模曲线平滑、连续且可预测的情况下，新指标呈现出突变和不可预测的曲线；

2. 在较小的参数范围内，由于分辨率（Resolution，在此被定义为可测的最小区间）不足，无法估计模型性能；

3. 在较大参数范围内采样不足。

但也有学者进一步发现，即使以连续性的度量指标来刻画（比如交叉熵），我们也能看到模型在某些任务上的表现有涌现式的增长 ^[34] 。这说明涌现现象依然是真实存在的，而不完全是因为指标选取造成的幻觉。而且指标的连续性也不是选取合适指标的黄金标准，我们应该选取对任务适配的指标。比如以计算10+11=21为例，如果用token编辑距离作为评估指标，模型输出22时，距离等于1，输出11时，距离也等于1，但显然22比11更接近正确答案21。这时候再用token编辑距离作为评估指标就不合理了 ^[35] 。鉴于此，有学者提出关于涌现现象更为完整的定义 ^[35] ：

一项能力C被称为随着某种规模（如数据量、计算资源、参数数量等）的增长而涌现，需满足以下三个条件：

P1: 在需要能力C的任务上，模型表现呈现非线性的明显提升；

P2: 有多个任务同时出现这种非线性提升，不是只在某单一任务上发生。

P3: 模型获得了一个数据生成过程的底层结构（即对任务本质的理解或表达），这种结构对学会能力C是关键的，并且能力C的涌现与这个结构学习的进展密切相关。

在这篇文章 ^[35] 当中，作者其实已经意识到，模型展现的涌现现象和它底层的某些结构是相关的。而在这种结构的层次上做度量，比单纯地刻画下游任务上的表现对于研究大语言模型的涌现来说更为关键。

4. 大语言模型的结构涌现

在结构上，主流大语言模型均基于Transformer架构，根据历史输入预测下一个token的概率分布。Token是自然语言处理中文本切分的最小单位（字、词或子词）。大语言模型使用token来理解和处理文本，把句子分解为token后再进行模型计算和生成。然而，人类对于语言的理解不是在token的层次上，而是在语义（semantics）的层次上。我们可以通过对多个token的排列组合来理解和表达语义。所谓对大语言模型的结构进行度量和解释，便是基于Transformer模块的行为，对模型在token和语义层次上的动力学进行量化分析。这里的动力学机制由模型的权重参数和运行方式决定。

如前所述，目前大多数对于大语言模型涌现的刻画聚焦在具体下游任务的表现上，且都是定性的结论。这类涌现现象可以被看作是大语言模型的功能涌现。然而，结构决定功能。有没有可能在发生功能涌现的同时，大语言模型的内部也在发生结构上的涌现呢？这里的结构既指模型中的网络连接结构，又指模型的前向计算过程的动力学。自菲利普·安德森的《多者异也》之后，复杂性科学中对于复杂系统的涌现有了更多的认识。在观察者角度下，一个复杂系统同时具有微观和宏观尺度上的动力学，比如对于大语言模型来说，微观动力学是从已有的token生成下一个token，宏观动力学则可以是语义上的接龙和变化。作为一个对涌现定量研究的理论框架，因果涌现理论提出当宏观动力学因果效应强度大于微观动力学上的因果效应强度时，复杂系统发生涌现现象 ^[36] ^[37] 。我们猜想，大语言模型之所以会出现任务能力上的涌现或突变，背后对应着动力学机制上的涌现。如果我们想要解释甚至调控大语言模型的涌现现象，就需要从结构或动力学的角度对大语言模型的结构涌现进行度量，以及给出相应的理论解释。这样得到的量化结果不依赖于具体的任务设定或人为设定指标时额外引入的非线性。

4.1 量化大语言模型的信息涌现

受到Hoel ^[36] ^[37] 和Rosas ^[38] 等人的因果涌现理论的启发，Chen等人 ^[39] 提出一种叫做 信息涌现 （Information Emergence, IE）的定量指标，来量化大语言模型从token序列中提取语义信息的能力。其核心观点是，如果大语言模型在整个序列上的熵减超过了一个个单个token的熵减，那么我们认为该大语言模型发生了涌现。

大语言模型的下一个token预测机制（Next-token-prediction，NTP）可以被建模为一个马尔可夫过程，如下图所示。对于任意的Transformer模块 $l$ ，给定输入token长度T和隐状态维度D，输入表征由表示，输出表征为 $，其中$ $。一个模块的输出表征就是下一个模块的输入表征。以图中第0块中第2个token的输出表征（）为例，它接收来自输入表征$ $和$ 的信息，满足条件。可见，整个动力学过程由条件概率表示。当条件概率被给定时，每一个模块的输出表征状态仅由该模块的输入表征决定，所以它可以被假设为是一个马尔可夫过程。

NTP机制与马尔可夫过程的类比。

在这个动力学过程中有微观变量和宏观变量。 微观变量 指仅受单个输入token影响的token，例如 $h 0$ 满足转移概率； 宏观变量 则聚合所有输入token的信息，例如满足转移概率。在这样的定义下，NTP机制可以看作是从最微观尺度向最宏观尺度逐步粗粒化的过程。根据《多者异也》的理论，有时候，宏观变量的行为状态无法从任何一个微观变量中推出，但这并不意味着宏观变量可以无中生有。文中除了马尔可夫假设以外，还提出了随附性假设 ^[39] ，即当一个系统的微观动力学机制确定时，它的宏观动力学机制也就随之确定了。

基于以上两个假设，文章中对大语言模型的信息涌现做了如下定义 ^[39] ：

对于任意的Transformer模块 $l$ ，表示宏观变量，表示微观变量，MI(·，·) 表示互信息，模块 $l$ 的IE强度定义为：

给定一个序列和Transformer模块，我们如何得到宏微观变量？假设给定的输入序列是“large language model”，那么为了得到每一个token作为微观变量时的输入输出表征，我们需要把每一个token作为当前输入的首个token。比如输入是“large language model”时，我们可以得到“large”作为微观输入表征时的输出表征；把输入序列改成“language model”，就可以得到“language”作为微观输入表征时的输出表征；把输入序列改成“model”，就可以得到“model”作为微观输入表征时的输出表征。而对于宏观变量，则是全序列“large language model”输入时最后一个token（“model”）对应的输入和输出表征。这样做保证了微观变量状态只取决于单个的token，而宏观变量状态则取决于整个序列的信息。

计算互信息需要知道变量的概率分布。为了在大语言模型的高维状态空间上估计概率分布，作者使用了互信息神经估计算法（Mutual information neural estimation，MINE） ^[40] 来得到宏微观变量的概率分布。

下图展示了IE更加体现语义忠实度（Semantics Faithfulness），即一个指标能否真实反映语言模型理解句子含义的能力。该实验使用了OpenOrca数据集中的例子，计算随着输入变长，大语言模型对语义把握的能力是否一直增长。传统的度量指标包括准确率、模型的损失等等。而从下图中可以看出，随着输入变长，这些指标并不总是单调增长的，而且波动很大。与之相比，IE总是在增长（即图中曲线总为正值），而且结果非常稳定。