监督式学习是挡脚石，非监督学习才是人工智能的未来

云头条 · 公众号 · 科技媒体 · 2017-07-25 22:18

正文

请到「今天看啥」查看全文

我们已经在之前的一篇文章中探讨了神经网络和深度学习技术，现在是时候讨论深度学习的另一个主要组成部分了：数据，即图像，视频，电子邮件，驾驶模式，短语，物体等等。

令人惊讶的是，尽管我们的世界几乎被数据所淹没，但很大一部分是未经标注未被整理过的，这意味着这些数据对于大多数目前的监督式学习来说是不可用的。

而深度学习尤其依赖于大量良好的、结构化的、有标签的数据。在我们“神经网络非数理化指南”的第二部分中，我们将研究为什么高质量的、标记过的数据如此重要，它来自哪里，如何使用，以及近期会有什么样的解决方案可以提供给我们制造的那些渴望学习的机器。

监督学习：让我握住你的手

在关于神经网络的文章中，我们曾解释了如何通过精心制作的“香肠印刷机”（sausage

press）将数据输入给机器，这些印刷机能够快速进行剖析、分析甚至自我精炼。

这一过程被认为是监督式学习，因为大量的数据被输入到机器中，这些数据被事先煞费苦心地贴上了标签。例如，要训练一个神经网络来识别苹果或橙子的图片，就需要给这些图片贴上标签。机器可以通过识别所有被标记为苹果或橙色的图片来理解数据，这些图片有共同之处，因此机器最终可以利用这些已识别的图片来更准确地预测新图像中所出现的内容。他们看到的标记数据越多，看到的数据集越大，就能更好地增进他们预测的准确性。

这种方法在教机器学习视觉数据时很有用，还可以教机器如何识别从照片、视频到图形和书写在内的东西。一个明显的优势是，在许多应用程序中，机器在图像识别上做得甚至比人类还好。

比如，Facebook的深度学习软件能够将一张陌生人的两张照片进行匹配，其准确性与人类相当（实际上97%的情况下要好于人类），而谷歌在今年早些时候推出了一种可以从医学影像中探测肿瘤的神经网络，它的准确性甚至高于医师。

无监督学习：不需要监护人指导就得出结论

如你所预期，与监督式学习相对应的是无监督学习。这是指你松开系在机器上的皮带，让它潜入数据中，自主地进行发现和体验，寻找模式和联系，并得出结论，而不需要监护人的指导。这项技术长期以来一直被一部分人工智能科学家们所批评，但在2012年，谷歌展示了一个深度学习网络，能够从一大堆没有标记过的图片中破译猫、人脸和其他物体。这项技术令人印象深刻，并带来了一些极为有趣和有用的结果，但是，到目前为止，在任何方面无人监督学习都达不到监督学习的准确性和有效性。