Anthropic AI 最新研究成果发布：揭示大模型中的注意力回路

AI科技评论 · 公众号 · · 2025-04-02 19:06

正文

请到「今天看啥」查看全文

构建归因图

我们将通过一个关于模型生成任意标题首字母缩写的案例研究，介绍构建归因图的方法。在此示例中，模型成功补全了一个虚构的首字母缩写。具体而言，我们向模型输入提示语"The National Digital Analytics Group，因此提示与补全的分词结果为：The National Digital Analytics Group。

我们通过构建归因图解释模型输出"DAG"词元的计算过程。该图展示了信息从提示语经过中间特征流向输出的路径。下方展示了完整归因图的简化示意图：提示语位于底部，模型补全结果位于顶部。方框表示相似特征的组合，悬停可查看各特征的可视化。箭头表示特征组或词元对其他特征及输出逻辑值的直接影响。

缩写的提示词图展示了三条主要路径，分别从组成目标缩写的每个标记开始。这些路径从特定单词的特征出发，促进“在正确位置说出该单词首字母”的特征。除了这些顺序路径外，像“Michael Jordan”和“sport/game of”这样的特征组还有直接连接到篮球对数几率的边，这代表仅通过注意力头OVs介导的效果，与Batson等人的发现一致。

为了输出“DAG”，模型还需要决定输出一个缩写，并考虑到提示词中已经包含N，我们确实看到了“在缩写中”和“在缩写开头的N”特征对对数几率有正向影响。National一词对对数几率的影响很小。我们推测这是由于其主要贡献是通过影响注意力模式，而我们的方法并未解释这一点。

针对提示构建归因图

为解释局部替换模型的计算过程，我们构建了因果图以描述其在特定提示下的计算步骤序列。构建逻辑与Dunefsky等人的方法基本一致，但扩展支持跨层转码器。图中包含四类节点：

输出节点 ：对应候选输出词元。仅构建覆盖95%概率质量的输出节点，最多10个。
中间节点 ：对应各提示词元位置的活跃跨层转码器特征。
主输入节点 ：对应提示语词元的嵌入向量。
辅助输入节点（误差节点） ：对应底层模型中未被CLT解释的MLP输出部分。

实践中，我们使用反向Jacobian矩阵高效计算这些权重。

需注意：

图中不包含节点通过影响注意力模式对其他节点的作用，但包含通过冻结注意力输出产生的节点间影响。
跨层特征的输出边聚合了其在所有写入层对下游特征的解码效应。

尽管替换模型特征稀疏激活（每个词元位置约百个活跃特征），归因图仍过于庞大（短提示下边数可达百万级）。但关键路径通常集中于小子图。为此，我们采用剪枝算法保留对逻辑节点有显著直接/间接影响的节点和边。默认参数下，节点数减少10倍时，仅损失20%的行为解释力。

从归因图中学习

即使在剪枝之后，归因图仍然包含大量的信息。一个剪枝后的图通常包含数百个节点和数万条边——信息量太大，无法一次性解读。为了帮助我们应对这种复杂性，我们开发了一个交互式归因图可视化界面。该界面旨在实现“追踪”图中的关键路径，保留重新访问之前探索过的节点和路径的能力，并根据需要提供解释特征所需的信息。

该界面是交互式的。可以将鼠标悬停在节点上并点击以显示附加信息。还可以通过使用命令/控制键+点击来选择一组节点，从而构建子图。在子图中，特征可以被聚合到我们称之为超节点的组中。

特征理解与标注

我们采用与前期工作规模化单义性（ Scaling Monosemanticity ）相似的特征可视化方法，对图中各特征进行人工解释与标注。

最易标注的特征包括两类：

输入特征 ：常见于模型浅层，在特定词元或紧密相关词元类别上激活；
输出特征 ：常见于模型深层，通过促进特定词元或相关词元类别的延续来引导响应生成。

模型中间层则普遍存在 抽象特征 ，其标注难度较高。对此类特征，我们综合以下维度进行推断：

特征活跃的上下文案例
逻辑效应（通过残差流和非嵌入层直接促进/抑制的词元）
与其它特征的连接关系

研究发现，即使特征标注存在不完美之处，仍能有效揭示归因图中的显著结构。

在进行误差调整并冻结注意力机制与归一化非线性操作后，Anthropic以不同的基础计算单元重构了底层模型在固定prompt p上的计算过程。此时的替换模型经过误差校正，所有激活值和逻辑输出均与底层模型完全一致。Anthropic指出，本地替换模型可以被视作一个非常大的全连接神经网络，并在其上进行经典的回路分析。

Anthropic针对本地替换模型构建时所依据的特定提示，研究其特征间的交互作用，在此基础上构建了解释语言模型行为底层机制的归因图。

以模型为任意标题生成缩写的任务为例，在Anthropic展示的案例中，研究人员向模型提供提示词“The National Digital Analytics Group (N”，并采样其完成的输出“DAG”。Anthropic通过构建一个归因图来解释模型如何输出“DAG”标记，下图是完整归因图的简化版。图中底部是提示词，顶部是模型的完成输出。方框代表一组相似的特征，箭头表示一组特征或标记对其他特征和输出对数几率的直接影响。

可以看到，针对首字母缩写提示生成的归因图显示出三条主要路径，每条路径均源自构成目标缩写"DAG"的各词元。这些路径从特定单词对应的特征出发，激活了"在正确位置说出该单词首字母"相关特征，这些特征又通过正向边连接至"输出DAG"特征及最终逻辑输出。

为实现"DAG"的输出，模型需要首先决定输出一个首字母缩写，并考虑提示中已包含字母"N"的事实。图中可见，属于首字母缩写且位于首字母缩写起始处的N通过正向边影响逻辑输出，而"National"一词对逻辑输出的影响微弱。Anthropic推测这主要源于其通过影响注意力模式发挥作用，但当前解释方法尚未涵盖这一机制。