专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
人工智能与大数据技术  ·  Claude ... ·  2 天前  
InfoTech  ·  月薪40K的思维方式 ·  2 天前  
CDA数据分析师  ·  【干货】如何用 AI 从0到1 ... ·  3 天前  
51好读  ›  专栏  ›  数据派THU

原创 | 机器学习模型的可解释性(三)

数据派THU  · 公众号  · 大数据  · 2025-06-14 17:00

正文

请到「今天看啥」查看全文


,那么,现在的损失函数为 image.png ,我们想知道的是,在拉大这个权重之和,模型在测试集上面的改变会有多少?即 image.png 。为了解决上面那个问题(哪些训练点对这个预测是影响最大的),我们必须要去固定 image.pngimage.png ,去遍历训练集上面的所有的点,训练一个新的网络,那么,一共需要训练n次网络,这是一个很麻烦的过程,我们应该去尽量避免,对此,Pang Wei Koh提出了用影响函数去解决这个问题。


1.1. 增加训练点权重对损失的影响函数


我们想知道的是,当 image.png 时, image.png 如何变化?Cook & Weisberg先前提出,增加z的权重对模型参数 的影响由下式给出:


image.png


其中, image.png 是海瑟矩阵(并假定它正定),接着,考虑增加z的权重对测试点 image.png 的损失的影响,有:

image.png


1.2. 训练输入扰动对损失的影响函数


假设我们不是增加训练点的权重,而是通过一个小量扰动 image.png 训练输入x,即我们考虑 image.png 。我们将 image.png 从z移动到 image.png ,新的参数估计值为:

image.png


增加 image.png 的权重(同时减少z的权重)对参数 image.png 的影响由下式给出:

image.png


如果x是连续的并且 1749609753740.png 很小,我们可以进一步近似为:

image.png


接下来,我们考虑这种扰动对测试点 image.png 的损失的影响。通过链式法则,我们有:

image.png


代入的表达式,我们得到:

image.png


如果我们令 1749609753740.png







请到「今天看啥」查看全文