专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

告别「烧显卡」训练！上交大团队发布AutoGnothi：黑盒Transformer实现自我解释

PaperWeekly · 公众号 · 科研 · 2025-05-28 13:42

正文

请到「今天看啥」查看全文

https://openreview.net/forum?id=UvMSKonce8&invitationId=ICLR.cc/2025/Conference/Submission357

联系方式：

[email protected]

通讯作者：

[email protected]

AutoGnothi 的三大核心贡献：

（1）高效解释：提出了一种新的参数高效的自解释性方法，将黑盒模型（如 ViT 和 BERT）转变为自解释模型，即通过引入轻量级的旁路网络（side network）来生成基于 Shapley Value 的解释，并且冻结主干网络只微调旁路网络，从而减少了训练、推理和显存占用成本，无需使用额外的事后解释器模型。

（2）自解释性：实现了黑盒模型的自解释能力，能够在不影响原模型预测性能的同时输出基于 Shapley Value 的可靠解释。

（3）广泛适用性：已在多个视觉和语言任务上进行了验证，包括使用 ViT、BERT 等常用 Transformer 模型等，具有可扩展性和广泛适用性。

方法

AutoGnothi 的核心思想通过引入旁路微调（side-tuning）技术，减少模型的训练、推理和显存等开销，同时使模型具备自解释能力。

具体而言，AutoGnothi 在原始黑盒模型的基础上，添加了一个旁路网络（side network）。通过只对该旁路网络微调且冻结模型主干，使得黑盒模型能够生成基于 Shapley Value 的解释，而无需进行全量微调。

如上图（b）中所示，通过在被解释模型主干上加入低秩旁路网络构建了 Surrogate 模型和 Explainer 模型，Surrogate 是为使模型适应输入存在掩码的情况，在训练中通过 KL 散度最小化来优化；Explainer 则为原始黑盒模型通过如下损失函数生成基于 ShapleyValue 的解释：

对于 Surrogate 和 Explainer，AutoGnothi 在旁路网络中使用与被解释的黑盒模型相同数量的 causal self-attention 块，并在 ImageNette 和 Oxford IIIT Pets 数据集上采用 r=8 的缩减因子，在 MURA 和 Yelp Review Polarity 数据集上采用 r=4 的缩减因子。

Surrogate 使用与被解释模型相同的任务头即 Prediction head。Explainer 则在旁路网络多个 MSA 块之后，增加了三个全连接层作为解释头即 Explanation head 用以输出解释。

实验结果

1. 在训练成本和显存占用方面的评估