正文
我们想要把一个物品的不同部分分离出来,然后用非常简单的几何模型,数字模型,模拟模型来做“cat model”,很直接的把它变成一些圆形、三角形等,让电脑更好识别出放在它面前的是什么样的东西。
但是不同的猫在不同的图片中都有所不同,所以是否每次都要重新设计一个模型,让电脑能够识别出不同姿势的猫?为了让不同的猫都能被计算机识别出来,我们需要设计无数的模型
。所以很多年来我们都想找到一个非常神奇的数字模型,它能够满足不同的猫的变形体。
孩子学习的启发:
从大量数据中学习
▼
八年前,一个很简单但重要的事情然我的思维得到了非常大的改变,那就是从孩子学习的过程中得到了灵感,因为我们并没有告诉一个孩子你要怎样认出一只猫,我们没告诉他猫是这个样子,哪里是三角形、圆形,他们只是靠经验学习。如果我们把孩子的眼睛看作一对最简单的生物照相机,他们每秒钟可以拍照5次,到3岁的时候,孩子们已经看过了成百上千万张世界各样的照片。所以,
在我们找到更好的算法之前,我们需要给计算机进行像孩子们大脑发育时期一样的训练,也即是给计算机比目前领域内所使用得多得多的训练数据集。
我们花了很多时间来做这项研究。我和普林斯顿的同事一起在网络上找到了很多图片、很多数据,我们用了成百上千的图片构建这套系统。在三年的辛勤研究后,2009年我们终于做出了这样一个体系,其中包括1500万张图片和22000个不同的单词门类,都是我们日常见到的,从数量和质量来说,这个系统在计算机视觉和机器学习方面都是前所未有的,我们也因此在解决计算机物体识别这个问题上,比以往任何时候都准备充分。
从孩子的角度,我们获取了宝贵的第一课,从大量数据中学习。
来自大脑的灵感:
卷积神经网络
▼
这一图片库提供的丰富资料也完美适配卷积神经网络,这是最初由70、80年代代科学家们开拓的一个领域,其灵感来自大脑。
就像我们的大脑一样,卷积神经网络有成百上千个“类神经元”单位互相连接在一起。
这是一个非常经典的放在电脑上的神经系统,它大概有2400万个节点,1.4亿个参数和150亿个接口。
拥有这么庞大的信息的图片库,卷积神经网络算法以难以预料到的速度迅速发展了起来,也在物品识别上给我们带来了一些非常振奋人心的结果。
电脑告诉我们这张照片里有一只猫,这个猫在那里;这边是计算机告诉我们,小孩拿着他的泰迪熊。我们看到的物体都比较小,但电脑还是能够识别出来。
截止到目前,我们都一直专注于教电脑怎样识别物体,就像小孩学最简单的单词一样,这只是第一步,小孩很快会进入下一阶段的发展,那就是用句子交流。
所以要教电脑看懂图片,并且用一句话来描述它,我们其实需要用到神经系统,并且把神经系统推向一个高度,我们需要把视觉信息和文本信息结合起来,并且让它生成出一句具有意义的句子。
又经过一个阶段的努力研究,大概是一年半以前,我们成为了第一批通过深度学习让电脑在看到图片后告诉我们一些信息的实验室。