专栏名称: 雷克世界
赛迪研究院(CCID)主办的新媒体平台,每天跟你聊聊机器人、人工智能、智能制造领域的那些你想知道的事……
目录
51好读  ›  专栏  ›  雷克世界

牛津大学提出全新生成式模型「SQAIR」,用于移动目标的视频理解

雷克世界  · 公众号  · 机器人  · 2018-06-08 18:31

正文

请到「今天看啥」查看全文


图1:左:在AIR中的生成;右:在SQAIR中的生成。


可以这样说,在他们的环境中识别目标并理解他们之间关系的能力是人类智力的基石(Kemp和Tenenbaum于2008年提出)。可以说,在这样做的过程中,我们依赖于空间和时间一致性的概念,这个概念引发了一个期望,即目标不会凭空出现,也不会自发地消失,并且它们可以通过诸如位置、外观以及一些解释它们随着时间的演变的动态行为进行描述。我们认为这种一致性的概念可以被看作是一种归纳偏差(inductive biases),可以提高我们学习的效率。同样,我们认为将这种对时空一致性的偏差引入到我们的模型中应该会大大减少学习所需的监督量。


图2:左:AIR中的推理;右:SQAIR中从传播(PROP)阶段开始的推理。


实现这种归纳偏差的一种方式是通过模型结构。尽管最近在深度学习方面所取得的成功表明,即使没有明确地为模型赋予那种具有可解释性的结构,这种进步也是可以取得的(LeCun和Bengio等人于2015年提出),但最近的研究表明,将这种结构引入深度模型确实可以导致有利的归纳偏差从而提高性能表现,如卷积神经网络(LeCun和Boser等人于1989年提出),或那些需要关系推理的任务(Santoro等人于2017年提出)。除此之外,结构还可以通过显著提高泛化能力、数据效率(Jacobsen等人于2016年提出),或将其能力扩展到非结构化输入(Graves等人于2016年提出),从而使神经网络能够在新的环境中有用。







请到「今天看啥」查看全文