正文
我们将通过一个关于模型生成任意标题首字母缩写的案例研究,介绍构建归因图的方法。在此示例中,模型成功补全了一个虚构的首字母缩写。具体而言,我们向模型输入提示语"The National Digital Analytics Group,因此提示与补全的分词结果为:The National Digital Analytics Group。
我们通过构建归因图解释模型输出"DAG"词元的计算过程。该图展示了信息从提示语经过中间特征流向输出的路径。下方展示了完整归因图的简化示意图:提示语位于底部,模型补全结果位于顶部。方框表示相似特征的组合,悬停可查看各特征的可视化。箭头表示特征组或词元对其他特征及输出逻辑值的直接影响。
缩写的提示词图展示了三条主要路径,分别从组成目标缩写的每个标记开始。这些路径从特定单词的特征出发,促进“在正确位置说出该单词首字母”的特征。除了这些顺序路径外,像“Michael Jordan”和“sport/game of”这样的特征组还有直接连接到篮球对数几率的边,这代表仅通过注意力头OVs介导的效果,与Batson等人的发现一致。
为了输出“DAG”,模型还需要决定输出一个缩写,并考虑到提示词中已经包含N,我们确实看到了“在缩写中”和“在缩写开头的N”特征对对数几率有正向影响。National一词对对数几率的影响很小。我们推测这是由于其主要贡献是通过影响注意力模式,而我们的方法并未解释这一点。
针对提示构建归因图
为解释局部替换模型的计算过程,我们构建了因果图以描述其在特定提示下的计算步骤序列。构建逻辑与Dunefsky等人的方法基本一致,但扩展支持跨层转码器。图中包含四类节点:
-
输出节点
:对应候选输出词元。仅构建覆盖95%概率质量的输出节点,最多10个。
-
中间节点
:对应各提示词元位置的活跃跨层转码器特征。
-
主输入节点
:对应提示语词元的嵌入向量。
-
辅助输入节点(误差节点)
:对应底层模型中未被CLT解释的MLP输出部分。
实践中,我们使用反向Jacobian矩阵高效计算这些权重。
需注意:
-
图中不包含节点通过影响注意力模式对其他节点的作用,但包含通过冻结注意力输出产生的节点间影响。
-
跨层特征的输出边聚合了其在所有写入层对下游特征的解码效应。
尽管替换模型特征稀疏激活(每个词元位置约百个活跃特征),归因图仍过于庞大(短提示下边数可达百万级)。但关键路径通常集中于小子图。为此,我们采用剪枝算法保留对逻辑节点有显著直接/间接影响的节点和边。默认参数下,节点数减少10倍时,仅损失20%的行为解释力。
从归因图中学习
即使在剪枝之后,归因图仍然包含大量的信息。一个剪枝后的图通常包含数百个节点和数万条边——信息量太大,无法一次性解读。为了帮助我们应对这种复杂性,我们开发了一个交互式归因图可视化界面。该界面旨在实现“追踪”图中的关键路径,保留重新访问之前探索过的节点和路径的能力,并根据需要提供解释特征所需的信息。
该界面是交互式的。可以将鼠标悬停在节点上并点击以显示附加信息。还可以通过使用命令/控制键+点击来选择一组节点,从而构建子图。在子图中,特征可以被聚合到我们称之为超节点的组中。
特征理解与标注
我们采用与前期工作规模化单义性(
Scaling Monosemanticity
)相似的特征可视化方法,对图中各特征进行人工解释与标注。
最易标注的特征包括两类:
-
输入特征
:常见于模型浅层,在特定词元或紧密相关词元类别上激活;
-
输出特征
:常见于模型深层,通过促进特定词元或相关词元类别的延续来引导响应生成。
模型中间层则普遍存在
抽象特征
,其标注难度较高。对此类特征,我们综合以下维度进行推断:
研究发现,即使特征标注存在不完美之处,仍能有效揭示归因图中的显著结构。
在进行误差调整并冻结注意力机制与归一化非线性操作后,Anthropic以不同的基础计算单元重构了底层模型在固定prompt p上的计算过程。此时的替换模型经过误差校正,所有激活值和逻辑输出均与底层模型完全一致。Anthropic指出,本地替换模型可以被视作一个非常大的全连接神经网络,并在其上进行经典的回路分析。
Anthropic针对本地替换模型构建时所依据的特定提示,研究其特征间的交互作用,在此基础上构建了解释语言模型行为底层机制的归因图。
以模型为任意标题生成缩写的任务为例,在Anthropic展示的案例中,研究人员向模型提供提示词“The National Digital Analytics Group (N”,并采样其完成的输出“DAG”。Anthropic通过构建一个归因图来解释模型如何输出“DAG”标记,下图是完整归因图的简化版。图中底部是提示词,顶部是模型的完成输出。方框代表一组相似的特征,箭头表示一组特征或标记对其他特征和输出对数几率的直接影响。
可以看到,针对首字母缩写提示生成的归因图显示出三条主要路径,每条路径均源自构成目标缩写"DAG"的各词元。这些路径从特定单词对应的特征出发,激活了"在正确位置说出该单词首字母"相关特征,这些特征又通过正向边连接至"输出DAG"特征及最终逻辑输出。
为实现"DAG"的输出,模型需要首先决定输出一个首字母缩写,并考虑提示中已包含字母"N"的事实。图中可见,属于首字母缩写且位于首字母缩写起始处的N通过正向边影响逻辑输出,而"National"一词对逻辑输出的影响微弱。Anthropic推测这主要源于其通过影响注意力模式发挥作用,但当前解释方法尚未涵盖这一机制。