正文
https://openreview.net/forum?id=UvMSKonce8&invitationId=ICLR.cc/2025/Conference/Submission357
联系方式:
[email protected]
通讯作者:
[email protected]
AutoGnothi 的三大核心贡献:
(1)
高效解释
:提出了一种新的参数高效的自解释性方法,将黑盒模型(如 ViT 和 BERT)转变为自解释模型,即通过引入轻量级的旁路网络(side network)来生成基于 Shapley Value 的解释,并且冻结主干网络只微调旁路网络,从而减少了训练、推理和显存占用成本,无需使用额外的事后解释器模型。
(2)
自解释性
:实现了黑盒模型的自解释能力,能够在不影响原模型预测性能的同时输出基于 Shapley Value 的可靠解释。
(3)
广泛适用性
:已在多个视觉和语言任务上进行了验证,包括使用 ViT、BERT 等常用 Transformer 模型等,具有可扩展性和广泛适用性。
方法
AutoGnothi 的核心思想通过引入旁路微调(side-tuning)技术,减少模型的训练、推理和显存等开销,同时使模型具备自解释能力。
具体而言,AutoGnothi 在原始黑盒模型的基础上,添加了一个旁路网络(side network)。通过只对该旁路网络微调且冻结模型主干,使得黑盒模型能够生成基于 Shapley Value 的解释,而无需进行全量微调。
如上图(b)中所示,通过在被解释模型主干上加入低秩旁路网络构建了 Surrogate 模型和 Explainer 模型,Surrogate 是为使模型适应输入存在掩码的情况,在训练中通过 KL 散度最小化来优化;Explainer 则为原始黑盒模型通过如下损失函数生成基于 ShapleyValue 的解释:
对于 Surrogate 和 Explainer,AutoGnothi 在旁路网络中使用与被解释的黑盒模型相同数量的 causal self-attention 块,并在 ImageNette 和 Oxford IIIT Pets 数据集上采用 r=8 的缩减因子,在 MURA 和 Yelp Review Polarity 数据集上采用 r=4 的缩减因子。
Surrogate 使用与被解释模型相同的任务头即 Prediction head。Explainer 则在旁路网络多个 MSA 块之后,增加了三个全连接层作为解释头即 Explanation head 用以输出解释。
实验结果
1. 在训练成本和显存占用方面的评估