观点 | 用几何学提升深度学习模型性能，是计算机视觉研究的未来

机器之心 · 公众号 · AI · 2017-05-01 13:55

正文

请到「今天看啥」查看全文

尽管如此，我们仍旧在深度学习领域获得了显著成果，即研究人员能通过一些数据以及使用基本的深度学习 API 所编写的20 余行代码来获得大量容易得到的成果。虽然这些成果很有突破性，但我认为它们往往过于理想化，且缺乏原则性理解。

本篇博文中，我将提出理由证明，人们通常会生硬地应用深度学习模型来处理计算机视觉问题，但实际上我们能够做得更好。我攻读博士第一年的一些成果便是范例。PoseNet 是我为了研究拍照姿势而使用深度学习开发的一个算法。这个问题在计算机视觉领域已被研究了几十年，有大量优秀的相关理论。但作为博一学生，我天真地应用了一个深度学习模型来端到端地研究这个问题，尽管我完全忽视了该问题的理论，却仍然获得了不错的成果。本文末尾我会介绍一些近期研究，它们以更理论化、基于几何学的方法来看待这个问题，从而对性能做出了极大的提升。

我们正在用尽这些唾手可得的成果，或者用简单的高级深度学习 API 解决的绝大多数问题。具体而言，我认为应用深度学习的计算机视觉在未来的许多发展都将源于对几何学的洞见。

我所言的几何学是什么？

在计算机视觉中，几何描述了世界的结构与形状，具体涉及到如深度、体积、形状、姿势、视差、运动以及光流等测量单位。

我认为几何在视觉模型中举足轻重，主要由于是它定义了世界的结构，并且我们能够理解这种结构（例如从许多著名教科书中得以理解）。因此很多复杂的关系（如深度和运动）并不需运用深度学习从头开始研究。通过构建运用这种知识的架构，我们能在现实中应用它们并简化学习问题。文末的一些例子将展示如何使用几何来提高深度学习架构的性能。

替代范式使用了语义表征。语义表征使用语言来描述世界中的关系，如我们会描述一个物体为「猫」或「狗」。但我认为几何对语义而言具有两个有吸引力的特征：

几何能被直接观察。我们可以通过视觉直接看到世界的几何外观。在最基本的层次上，我们可通过帧之间的对应像素来直接观看视频的运动与深度；其他有趣的例子还有根据立体视差的阴影或深度来观察形状。相较之下，语义表征通常是人类语言所专有的，其标签对应于一组有限的名词，从而无法直接观察。
几何基于连续量（continuous quantities），如我们能以米为单位测量深度或以像素为单位测量视差。相较之下，语义表征主要是离散量（discretised quantities）或二元标签。