正文
参与:吴攀
论文:CLEVR:一个用于组合式语言和初级视觉推理的诊断数据集(CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning)
摘要:当开发能够推理和回答关于视觉数据的问题的人工智能系统时,我们需要诊断测试来分析我们的进展和发现缺陷。现有的一些视觉问答基准可以提供帮助,但它们有很强的偏置(bias)——模型可以利用这些偏置从而无需推理就能给出问题的正确答案。它们还混有多个误差源,这会让我们难以定位模型的弱点。我们提出了一个诊断数据集,其可以测试许多视觉推理能力。它包含了最小的偏置,并且有详细的标注描述了每个问题所需的推理的类型。我们使用这个数据集分析了各种现代的视觉推理系统,为它们的能力和局限性提供了全新的见解。
导言
人工智能研究的一个长期目标是开发能够推理和回答关于视觉信息的问题的系统。为了研究这个问题,研究者在近段时间已经提出了多个数据集 [4, 10, 21, 26, 32, 46, 49]。这些每一个视觉问答(VQA:Visual Question Answering)数据集都包含了关于图像的自然语言难题。正确回答这些问题既需要识别物体、属性和空间关系等感知能力,也需要计数、执行逻辑推理、做比较或利用世界知识常识等更高级的能力 [31]。研究者为解决这些问题提出了很多方法 [2, 3, 9, 24, 44],但其中许多都只是在强基线上的一点点改进 [4, 16, 48]。不幸的是,我们理解这些方法的局限性的能力受到了 VQA 任务的固有复杂性的阻碍。这些方法的问题到底是识别失败、推理能力差、缺乏常识知识还是其它什么呢?
在这篇论文中,我们提出了一个用于研究 VQA 系统执行视觉推理的能力的诊断数据集(diagnostic dataset)。我们将这个数据集称为 Compositional Language and Elementary Visual Reasoning(组合式语言和初级视觉推理)诊断数据集,简称 CLEVR。CLEVR 包含 10 万张经过渲染的图像和大约 100 万个自动生成的问题,其中有 85.3 万个问题是互不相同的。其中包含了测试计数、比较、逻辑推理和在记忆中存储信息等视觉推理能力的图像和问题,如图 1 所示。