正文
在一次性词语学习模型中衡量形状偏好
在我们的案例研究中,我们考虑了儿童是怎样识别和标注物体的——这是发展认知心理学中的一个丰富的研究领域。儿童具备根据单一例子对词语含义进行猜测的能力——叫做「一次性词语学习(One-shot Word Learning models)」——我们很容易地会认为这是一个简单的过程。然而,一个来自心理学家 Willard Van Orman Quine 的经典思维实验说明了这一过程的的复杂性:
一位实地语言学家走访了语言完全不同于我们的地区。这位语言学家尝试去和当地的土著学习一些词汇,恰巧此时一只兔子匆匆路过。这位土著说了一声「gavagai」,而这位在他身边的语言学家也推断出了这个新词汇的含义。实际上这位语言学家面对的是大量的合理推断,这个「gavagai」可能泛指兔子,动物,白色的东西,也可能就是指这只特定的兔子或者「兔子中独立的一个种类」。其实他是可能做出无限个合理推断的。而人们又是怎样去选择其中的正确选项呢?
「Gavagai」
五十年后,当我们面对关于可以做一次性学习的深度神经网络的相同问题时。去考虑匹配网络,这是 DeepMind 研发的一种神经网络。这一模型使用了有关注意力和记忆力(attention and memory)研究的最新成果,可以在仅使用一种类别中的单一示例的情况下,把 ImageNet 图像进行分类,这种方法的性能表现绝对是一流的。然而,我们并不知道为了把这些图片进行分类网络都做了哪些假设。
为了使这一问题更加透明,我们借鉴了发展心理学家(developmental psychologists)(1)的工作,他已经发现了关于儿童通过利用归纳偏移来消除很多不正确推断,从而找到正确推断的证据。这些偏好包括:
-
全物体偏好,儿童通过参考完整物体(而非某部位)设想某个词汇(消除 Quine 对未观察到的兔子部分的忧虑)。
-
分类学偏好,儿童通过参考基础类别分类来设想某个词汇(缓解 Quine 把所有的动物都选择为的兔子的恐惧)
-
形状偏好,儿童基于物体形状设想一个词汇的含义,而非颜色或纹理(解除 Quine 把所有的白物体都认定为「兔子」的焦虑)。
我们选择测量神经网络的形状偏好,因为在人类偏好上有大量的研究工作。
认知心理学刺激物样本,我们用它来测量深度网络中的形状偏好。这些图像由印第安纳大学认知发展实验室的 Linda Smith 提供。