计算机视觉需要更多几何洞察

CSDN · 公众号 · 科技媒体 · 2017-05-01 07:03

正文

另一种范式是使用语义表示。语义表示指的是用语言来描述物体在现实中的关系。例如，我们可以将物体描述为“猫”或“狗”。但是，几何在语义上有两大特性：

几何形态可以直接观察。人们直接用视觉观察这个世界的几何形态。在最基本的层面上，人们可以通过追踪帧与帧之间相应像素的关系来直接观察物体的运动状态和深度情况。另外一些有趣的例子，包括根据阴影观察形状或是从立体视差推测深度。与此相反，语义表示是人类语言所特有的，每个标签对应于一个名词实体，无法直接观察。
几何是基于测量的连续变量。例如，人们可以用“米”来度量深度或是用像素来衡量视差，而语义表征则是离散量或二值标签。

为什么这些属性很重要呢？其中一个重要的原因在于这些属性对无监督学习非常有帮助。

英国剑桥中心，几何结构的运动重建，来自于手机的视频拍摄

无监督学习

无监督学习无需标注数据就能学习物体的表示和结构。获取大量的已标注训练数据需要耗费财力物力，因此无监督学习提供了更具扩展性的框架。

作者上面提到几何学的两个特性正好可以用来训练无监督学习模型：可观察性和连续表示。