正文
一种用于关系推理的简单神经网络模块
为了更深入地探索关系推理的思想,并测试这种能力能否轻松加入目前已有的系统,DeepMind 的研究者们开发了一种简单、即插即用的 RN 模块,它可以加载到目前已有的神经网络架构中。具备 RN 模块的神经网络具有处理非结构化输入的能力(如一张图片或一组语句),同时推理出事物其后隐藏的关系。
使用 RN 的网络可以处理桌子上的各种形状(球体、立方体等)物体组成的场景。为了理解这些物体之间的关系(如球体的体积大于立方体),神经网络必须从图像中解析非结构化的像素流,找出哪些数据代表物体。在训练时,没有人明确告诉网络哪些是真正的物体,它必须自己试图理解,并将这些物体识别为不同类别(如球体和立方体),随后通过 RN 模块对它们进行比较并建立「关系」(如球体大于立方体)。这些关系不是硬编码的,而是必须由 RN 学习——这一模块会比较所有可能性。最后,系统将所有这些关系相加,以产生场景中对所有形状对的输出。
研究人员让这一新模型处理了各种任务,其中包括
CLEVR
——一个视觉问答任务集,旨在探索神经网络模型执行不同类型推理的能力,如计数、比较和查询。CLEVR 由以下这样的图片组成:
对于每个图片,都有与图中物体相关的问题。例如,对于上图的问题可能是:「在图中有一个小的橡胶物体和大个的圆筒形有相同的颜色,那么它是什么形状的?」
目前的机器学习系统在 CLEVR 上标准问题架构上的回答成功率为 68.5%,而人类的准确率为 92.5%。但是使用了 RN 增强的神经网络,DeepMind 展示了超越人类表现的 95.5% 的准确率。
为了测试 RN 的多任务适用性,研究人员还在另一个大不相同的语言任务中测试了 RN 的能力。DeepMind 使用 bAbI——Facebook 推出的基于文本的问答任务集。bAbI 由一些故事组成,这些故事由数量不一的句子组成,最终引向一个问题。如:「Sandra 捡起了足球」、「Sandra 进了办公室」可能会带来问题「足球在哪里?」(答案是:办公室)。
RN 增强网络在 20 个 bAbI 任务中的 18 个上得分超过 95%,与现有的最先进的模型相当。值得注意的是,具有 RN 模块的模型在某些任务上的得分具有优势(如归纳类问题),而已有模型则表现不佳。
详细的测试结果请参阅论文《A simple neural network module for relational reasoning》。
视觉交互网络(VIN)