正文
在 2500 年以前,美索不达米亚人用黏土、木材和芦苇永远改变了世界的面貌。随着时间的发展,他们的算盘让贸易和理财变得更加容易,技术的进步刺激了经济的发展。
那一刻的灵感也从另一个角度闪耀着人类的力量:我们具有重组已有概念并想象全新事物的能力。发明者必须考虑他们需要解决的问题,他们对此可以建立的方式,以及他们可以收集的材料来创造新事物。黏土可以用作底板,木棍可以制成框架,而芦苇可以用作计数器。每个组件都是已有的独特事物,而它们的组合形成了革命性的新东西。
「组合性」理念是人类创造力、想象力和语言交流能力的核心。配备了少量熟悉的概念构建块,我们就能够快速创建大量新的概念构建块。人类可以通过将概念置于从特定到更普遍的层次结构中,然后以全新的方式重新组合层次结构的不同部分,从而自然地做到这一点。
然而,这种对于人类而言轻而易举的事,对于人工智能来说是一个巨大的挑战。
在 DeepMind 最近提交的论文《SCAN: Learning Abstract Hierarchical Compositional Visual Concepts》中,研究人员提出了一个新方式来解决这个问题。我们首先提出了一种全新的神经网络单元:符号-概念关联网络(SCAN),它可以——第一次——像人类接收视觉和语言那样学习基础视觉概念,它可以通过语言指令想象出全新的概念。
SCAN 模型以和几个月大的婴儿一样的方式通过视觉感受世界。在这个阶段,人类婴儿的眼睛还无法聚焦于任何超过手臂距离以外的事物,他们只能把精力用在观察视线距离以内运动和旋转的事物。为了模拟这个过程,研究人员将 SCAN 置于 DeepMind Lab 模拟 3D 环境中,它就像在婴儿床里一样无法移动,但可以通过转头来观察场景内与背景颜色不同的三种物体——帽子、手提箱和冰棍。和人类婴儿的视觉系统一样,我们的模型可以学习视觉世界里的基础构成,以及如何使用视觉判断「基元」来解释观察到的物体。例如,当看到一个苹果时,模型可以学会如何用颜色、形状、大小、位置或光照来形容它。
SCAN 的学习以基本可解释的视觉定义来表达看到的场景,如对象身份、颜色、旋转、墙壁颜色和底色等。
一旦我们的模型可以通过基元来解释视觉世界的事物,我们就进入了学习过程的命名阶段。这相当于语言学习的过程,就像成年人开始为婴儿看到的事物提供符号标签。例如,在这个阶段,家长可以在孩子面前指着苹果说:「看,一个苹果!」同样,在 SCAN 的 DeepMind Lab 环境中,它也接受了基础语言输入的指导,红色手提箱在黄色墙边的图像会被形容为「红色手提箱,黄色墙」。SCAN 可以学习这些输入的概念,并通过此前观察到的视觉理解来形成新的概念。例如,苹果的概念可以根据其颜色、形状和大小来指定,而诸如位置和光照等其他视觉原语被正确地识别为与苹果这个概念无关。