专栏名称: AI科技评论
点评学术,服务 AI !
目录
相关文章推荐
INTERNATIONAL IDEAL 筑梦求职  ·  哥大留学生,今年身价即将迎来暴涨! ·  昨天  
INTERNATIONAL IDEAL 筑梦求职  ·  哥大留学生,今年身价即将迎来暴涨! ·  昨天  
伯乐在线  ·  黄仁勋怒怼 Anthropic ... ·  昨天  
伯乐在线  ·  黄仁勋怒怼 Anthropic ... ·  昨天  
WallStreetTequila  ·  买方招聘进度 | Norric正在发NYC ... ·  3 天前  
WallStreetTequila  ·  买方招聘进度 | Norric正在发NYC ... ·  3 天前  
伯乐在线  ·  年薪 7000 万!扎克伯格大撒币,挖 AI 大牛 ·  3 天前  
伯乐在线  ·  年薪 7000 万!扎克伯格大撒币,挖 AI 大牛 ·  3 天前  
51好读  ›  专栏  ›  AI科技评论

Anthropic AI 最新研究成果发布:揭示大模型中的注意力回路

AI科技评论  · 公众号  ·  · 2025-04-02 19:06

正文

请到「今天看啥」查看全文



构建归因图

我们将通过一个关于模型生成任意标题首字母缩写的案例研究,介绍构建归因图的方法。在此示例中,模型成功补全了一个虚构的首字母缩写。具体而言,我们向模型输入提示语"The National Digital Analytics Group,因此提示与补全的分词结果为:The National Digital Analytics Group。

我们通过构建归因图解释模型输出"DAG"词元的计算过程。该图展示了信息从提示语经过中间特征流向输出的路径。下方展示了完整归因图的简化示意图:提示语位于底部,模型补全结果位于顶部。方框表示相似特征的组合,悬停可查看各特征的可视化。箭头表示特征组或词元对其他特征及输出逻辑值的直接影响。

缩写的提示词图展示了三条主要路径,分别从组成目标缩写的每个标记开始。这些路径从特定单词的特征出发,促进“在正确位置说出该单词首字母”的特征。除了这些顺序路径外,像“Michael Jordan”和“sport/game of”这样的特征组还有直接连接到篮球对数几率的边,这代表仅通过注意力头OVs介导的效果,与Batson等人的发现一致。

为了输出“DAG”,模型还需要决定输出一个缩写,并考虑到提示词中已经包含N,我们确实看到了“在缩写中”和“在缩写开头的N”特征对对数几率有正向影响。National一词对对数几率的影响很小。我们推测这是由于其主要贡献是通过影响注意力模式,而我们的方法并未解释这一点。

针对提示构建归因图

为解释局部替换模型的计算过程,我们构建了因果图以描述其在特定提示下的计算步骤序列。构建逻辑与Dunefsky等人的方法基本一致,但扩展支持跨层转码器。图中包含四类节点:

  • 输出节点 :对应候选输出词元。仅构建覆盖95%概率质量的输出节点,最多10个。

  • 中间节点 :对应各提示词元位置的活跃跨层转码器特征。

  • 主输入节点 :对应提示语词元的嵌入向量。

  • 辅助输入节点(误差节点) :对应底层模型中未被CLT解释的MLP输出部分。

实践中,我们使用反向Jacobian矩阵高效计算这些权重。

需注意:

  1. 图中不包含节点通过影响注意力模式对其他节点的作用,但包含通过冻结注意力输出产生的节点间影响。

  2. 跨层特征的输出边聚合了其在所有写入层对下游特征的解码效应。

尽管替换模型特征稀疏激活(每个词元位置约百个活跃特征),归因图仍过于庞大(短提示下边数可达百万级)。但关键路径通常集中于小子图。为此,我们采用剪枝算法保留对逻辑节点有显著直接/间接影响的节点和边。默认参数下,节点数减少10倍时,仅损失20%的行为解释力。

从归因图中学习

即使在剪枝之后,归因图仍然包含大量的信息。一个剪枝后的图通常包含数百个节点和数万条边——信息量太大,无法一次性解读。为了帮助我们应对这种复杂性,我们开发了一个交互式归因图可视化界面。该界面旨在实现“追踪”图中的关键路径,保留重新访问之前探索过的节点和路径的能力,并根据需要提供解释特征所需的信息。

该界面是交互式的。可以将鼠标悬停在节点上并点击以显示附加信息。还可以通过使用命令/控制键+点击来选择一组节点,从而构建子图。在子图中,特征可以被聚合到我们称之为超节点的组中。

特征理解与标注

我们采用与前期工作规模化单义性( Scaling Monosemanticity )相似的特征可视化方法,对图中各特征进行人工解释与标注。

最易标注的特征包括两类:

  1. 输入特征 :常见于模型浅层,在特定词元或紧密相关词元类别上激活;

  2. 输出特征 :常见于模型深层,通过促进特定词元或相关词元类别的延续来引导响应生成。

模型中间层则普遍存在 抽象特征 ,其标注难度较高。对此类特征,我们综合以下维度进行推断:

  • 特征活跃的上下文案例

  • 逻辑效应(通过残差流和非嵌入层直接促进/抑制的词元)

  • 与其它特征的连接关系

研究发现,即使特征标注存在不完美之处,仍能有效揭示归因图中的显著结构。

在进行误差调整并冻结注意力机制与归一化非线性操作后,Anthropic以不同的基础计算单元重构了底层模型在固定prompt p上的计算过程。此时的替换模型经过误差校正,所有激活值和逻辑输出均与底层模型完全一致。Anthropic指出,本地替换模型可以被视作一个非常大的全连接神经网络,并在其上进行经典的回路分析。

Anthropic针对本地替换模型构建时所依据的特定提示,研究其特征间的交互作用,在此基础上构建了解释语言模型行为底层机制的归因图。

以模型为任意标题生成缩写的任务为例,在Anthropic展示的案例中,研究人员向模型提供提示词“The National Digital Analytics Group (N”,并采样其完成的输出“DAG”。Anthropic通过构建一个归因图来解释模型如何输出“DAG”标记,下图是完整归因图的简化版。图中底部是提示词,顶部是模型的完成输出。方框代表一组相似的特征,箭头表示一组特征或标记对其他特征和输出对数几率的直接影响。

可以看到,针对首字母缩写提示生成的归因图显示出三条主要路径,每条路径均源自构成目标缩写"DAG"的各词元。这些路径从特定单词对应的特征出发,激活了"在正确位置说出该单词首字母"相关特征,这些特征又通过正向边连接至"输出DAG"特征及最终逻辑输出。

为实现"DAG"的输出,模型需要首先决定输出一个首字母缩写,并考虑提示中已包含字母"N"的事实。图中可见,属于首字母缩写且位于首字母缩写起始处的N通过正向边影响逻辑输出,而"National"一词对逻辑输出的影响微弱。Anthropic推测这主要源于其通过影响注意力模式发挥作用,但当前解释方法尚未涵盖这一机制。







请到「今天看啥」查看全文