Anthropic 的 AI 显微镜研究项目试图探究 LLM 内部运作机制

InfoQ · 公众号 · 科技媒体 · 2025-04-27 14:15

正文

当然，替代模型并不总是能与底层模型产生相同的输出。为了克服这一局限，Anthropic 的研究人员针对他们想要研究的每个提示词构建了一个专门的替代模型。他们通过将误差项和固定的注意力模式纳入替代模型实现了这一目标。

本地替代模型生成的输出与原始模型完全相同，但尽可能多地使用特征替换来执行计算。

作为最后一步，为了描述从初始提示词到最终输出的特征传递过程，研究人员通过修剪掉所有不影响输出的特征构建了一个归因图。

请注意，这里仅提供 Anthropic AI 显微镜的一个大致介绍。若要了解详细内容，请参考上文链接中的原始论文。

通过采用这种方法，Anthropic 的研究团队取得了一系列有趣的成果。在多语言能力的研究中，他们找到了一些证据，显示 Claude 在将概念翻译成特定语言之前使用了一种通用语言来生成概念。

我们通过使用不同的语言向 Claude 询问“小的反义词”来探究这一现象，结果发现相同的核心特征被激活，这些特征既代表了“小”和“反义”的概念，并触发了“大”的概念，而这一概念被翻译成了提问所使用的语言。

另一个有趣的发现与大语言模型通常被认为在生成输出时“缺乏深思熟虑”的观点相悖。相反，对 Claude 生成押韵词的研究显示，它实际上会提前进行规划。

在开始第二行之前，它先“思考”一些与主题相关的押韵词汇，这些词汇要与“grab it”押韵。然后，带着这些构思写出下一行，并以计划中的词汇作为结尾。