AAAI 2020 | 自动化所：基于对抗视觉特征残差的零样本学习方法

AI科技评论 · 公众号 · AI · 2020-01-15 14:44

正文

请到「今天看啥」查看全文

图 1 模型结构

1、视觉原型预测器

视觉原型预测器的任务是利用某一类别的语义特征来预测该类别的视觉特征原型。一般而言，我们用同一个类别的视觉特征的均值来表示该类的视觉原型特征。这样，对一个包含C个类别数据集，我们就可以得到C对语义特征和视觉原型特征。

利用这C对语义特征和视觉原型特征，我们就可以学习一个从语义特征到视觉原型特征的预测函数。当这个预测函数训练好以后，给定一个新类别的语义特征，我们就可以预测该类别的视觉原型特征。

一般情况下，视觉特征是一个高维的特征向量。在本文的方法中，针对视觉特征的每一个维度，我们都会学习一个预测器。该预测器采用SVR模型，以语义特征为输入，输出一维的视觉特征。

实际上，语义特征和视觉特征存在语义不一致性问题，这将导致由语义特征预测的视觉原型特征与真实的视觉原型特征具有一定的偏差。针对这一问题，我们提出了一种基于预测损失的特征选择方法。该方法对每一个视觉特征维度的预测损失进行排序，选择前K个预测损失最小的视觉特征维度，并以这K个视觉特征维度代替原来的视觉特征。通过视觉特征选择，我们得到了一种与语义特征更加一致的更加紧凑的视觉特征。

2、视觉特征残差生成器

视觉特征残差生成器的任务是以某一类别的语义特征为条件生成大量的视觉特征残差，通过结合这些视觉特征残差和其相应的视觉原型，我们可以合成视觉特征。将合成的视觉特征和用特征提取器提取的真实的视觉特征输入特征判别器进行对抗训练，我们就可以得到一个可以生成视觉特征残差的条件生成器。

现有的基于条件生成对抗网络的零样本学习方法一般都是利用对抗训练的方法训练一个条件生成器，该条件生成器以语义特征为条件直接生成视觉特征本身。在本文的方法中，我们同样利用对抗训练的方法训练一个条件生成器，不过该条件生成器生成的是视觉特征残差，然后通过将视觉特征残差和视觉原型结合合成视觉特征。

将视觉特征原型预测和视觉特征残差生成结合，我们可以合成一种具有更好的可判别性以及具有更好的语义一致性的视觉特征。更好的可判别性主要来自于视觉特征残差在数值上一般小于不同视觉原型之间的距离。更好的语义一致性主要来自于基于原型预测损失的视觉特征选择方法。

当视觉特征残差生成器训练好以后，给定某一未见新类别的语义特征，我们就可以合成该类别的视觉特征。这样，零样本学习问题就被转变为了一般的分类问题。

实验结果

本文方法在现有的公开数据集上进行了广泛地测试，其中包括 4个粗粒度的数据集（APY,AWA1,AWA2,SUN）和2个细粒度的数据集（CUB,NAB）。在4个粗粒度的数据集上，我们采用了1种数据划分方法对已见类别与未见类别进行划分。在2个粗粒度的数据集上，我们采用了2种难度不同的数据划分方法划分已见类别和未见类别。在零样本学习中，实验结果评价方法一般采用未见类别上的准确率。本文方法的实验结果与当前的最好的结果进行了比较，结果如表1-2所示。

表1 在4个粗粒度的公开数据集上的对比结果

表1 列出了本文的方法与当前主流方法在4个粗粒度的数据集上的实验结果。从表1可以看出，本文的方法在每个数据集上都取得了最好的结果。在APY,AW1和AWA2数据集上，本文方法的识别准确率取得了较大的提升。在SUN数据集上，本文方法的识别准确率提升相对较小，这可能是因为SUN这个数据集的类别数目较多，每个类别的训练图像个数较少，不利于视觉原型的准确计算，从而导致了准确率的下降。

表2 在两个粗粒度的公开数据集上的对比结果

表2 列出了本文的方法与当前主流方法在2个细粒度的数据集上的实验结果。表2的实验结果表明，本文的方法不仅在粗粒度的零样本学习上具有较好的表现，在细粒度的零样本学习上的表现同样取得了较大的提升。对于两种不同难度的数据划分方法，本文的方法也都提升了识别的准确率。在较难的SCE数据划分方式中，本文方法的实验结果提升的更加明显。这表明本文的方法在不同难度的零样本学习问题中都具有良好的表现。

为了进一步分析本文提出的方法是否具有效果，我们进行了两个对比实验。在第一个对比实验中，我们在2个细粒度的数据集上对比了基于残差的对抗视觉特征生成方法与直接的对抗视觉特征生成方法的结果。结果如表3所示：