专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
目录
相关文章推荐
51好读  ›  专栏  ›  PaperWeekly

告别「烧显卡」训练!上交大团队发布AutoGnothi:黑盒Transformer实现自我解释

PaperWeekly  · 公众号  · 科研  · 2025-05-28 13:42

正文

请到「今天看啥」查看全文


https://openreview.net/forum?id=UvMSKonce8&invitationId=ICLR.cc/2025/Conference/Submission357

联系方式:

[email protected]

通讯作者:

[email protected]


AutoGnothi 的三大核心贡献:


(1) 高效解释 :提出了一种新的参数高效的自解释性方法,将黑盒模型(如 ViT 和 BERT)转变为自解释模型,即通过引入轻量级的旁路网络(side network)来生成基于 Shapley Value 的解释,并且冻结主干网络只微调旁路网络,从而减少了训练、推理和显存占用成本,无需使用额外的事后解释器模型。


(2) 自解释性 :实现了黑盒模型的自解释能力,能够在不影响原模型预测性能的同时输出基于 Shapley Value 的可靠解释。


(3) 广泛适用性 :已在多个视觉和语言任务上进行了验证,包括使用 ViT、BERT 等常用 Transformer 模型等,具有可扩展性和广泛适用性。



方法

AutoGnothi 的核心思想通过引入旁路微调(side-tuning)技术,减少模型的训练、推理和显存等开销,同时使模型具备自解释能力。


具体而言,AutoGnothi 在原始黑盒模型的基础上,添加了一个旁路网络(side network)。通过只对该旁路网络微调且冻结模型主干,使得黑盒模型能够生成基于 Shapley Value 的解释,而无需进行全量微调。

如上图(b)中所示,通过在被解释模型主干上加入低秩旁路网络构建了 Surrogate 模型和 Explainer 模型,Surrogate 是为使模型适应输入存在掩码的情况,在训练中通过 KL 散度最小化来优化;Explainer 则为原始黑盒模型通过如下损失函数生成基于 ShapleyValue 的解释:

对于 Surrogate 和 Explainer,AutoGnothi 在旁路网络中使用与被解释的黑盒模型相同数量的 causal self-attention 块,并在 ImageNette 和 Oxford IIIT Pets 数据集上采用 r=8 的缩减因子,在 MURA 和 Yelp Review Polarity 数据集上采用 r=4 的缩减因子。


Surrogate 使用与被解释模型相同的任务头即 Prediction head。Explainer 则在旁路网络多个 MSA 块之后,增加了三个全连接层作为解释头即 Explanation head 用以输出解释。



实验结果

1. 在训练成本和显存占用方面的评估







请到「今天看啥」查看全文