正文
梁家恩:
大数据深度学习,在工业界取得了举世瞩目的成果。如果没有深度学习和过去互联网发展积累下来的大数据,现在可能我们没法看到这么好的结果,这在听觉、视觉方面的进展是毋庸置疑的。现在深度学习的“黑盒子”属性没有完全解开,有些科学家觉得深度学习太工程化,在数学上不是特别优雅,和传统机器学习不一样,但是在工业界非常实用,在未来一段时间里,还会发挥非常重要的作用。大数据深度学习,特别适合解决数据量很大的端到端的序列映射问题,效果非常好;如果说不太适合的场景,就是数据规模不够大、或者不是一个简单的序列映射的问题,比如符号理解、推理和对话。目前的深度学习网络结构通常是设计好的,如何根据问题寻找适合的网络结构,这点上需要更多的研究和推进,也是我们期待的。至于大数据,我们现在的机器学习,用到的训练数据主要还是靠人工干预得到的标注数据,并不是一个真正的大数据。所谓大数据,应该是能用上人处理不了的数据规模,这是未来的机器学习的一大挑战,这个跨度非常大,也是目前的一个热点所在。人类的学习,是以进化了很多年的大脑为基础,感知特征抽象能力非常强,人出生以后,各种学习都是在相对比较小的样本上进行的,能很快通过适应和调整,达到较高的认知水平,这是我的看法。
罗杰波:
因为我最近教书教多了,一般我不上来就说自己的观点,我讲几个故事,你听完了就知道我的观点。我们今天讲人工智能,我们可以拿人的智能做一个例子,我以前的导师有一个小孩子很聪明,3岁时候有一个现象,因为我的头发是自然卷,长的时候是卷的,理完发就不卷了,我每次理完发他就不认识我。我想说什么意思,3岁以前,我认为人不是用深度学习,我认为到5岁以后,就具备深度学习的能力了。但是我的观点是,深度学习只能让一个机器达到5岁的智能。
颜水成:
会不会是3岁的时候,深入学习模型还没有学好呢?
罗杰波:
我主要想说的是,深度学习只能让一个系统达到5岁,5岁对世界的认识是什么呢,主要是感知,不是认知。我再讲一个例子,我女儿的例子,我女儿我认为她很聪明,至少比我聪明,这个是IQ指数出来的,她现在16岁了,她在美国从小长大,她不知道腌黄瓜pickle是从黄瓜来的,因为我们在中国长大,我们知道腌黄瓜怎么出来的,我一到美国就知道。她没有见过,但是她在16岁某一天突然反应过来了,她认知腌黄瓜是从黄瓜来了。我认为5年级的学生就不需要大数据了,你问他,他也能知道腌黄瓜是黄瓜来的。我讲这两个故事的意思呢,我认为深度学习“不”可能让我们达到强人工智能的地步,但是深入学习让我们把底层的问题,比如说视觉是我们人感知世界的主要手段,占70%的信息是从视觉来的,视觉这个问题不解决,想讨论更上层的人工智能的问题,这是没有基础的。因为深入学习,计算机视觉有一个长足的进步,让我们在这个基础上可以真正去探索,去解决强人工智能的问题,这个就是我的观点。
颜水成:
我非常赞成黄老师的观点。我们先讨论一下基于大数据的深度学习为什么这么重要,我想从这个角度分享一些我的观点,大家可以看到,大概在2015年2016年早期的时候,大家在讲人工智能的时候,主要讲人工智能的三要素,大数据,计算能力和算法。但是2016年底和2017年初有一些变化,大家讲人工智能有四个要素,有大数据,有计算,有算法,还有一个是场景。场景是非常重要的,从工业界的角度来说,如果人工智能算法或者说能力没有落地的场景,人工智能就没有它的价值。如果从这个角度出发,我们会发现,大数据是非常关键的。为什么呢?如果这个场景本身不产生大数据,很可能是大家比较关心它,很重要,但可能不是高频的应用。有些场景从整个社会的层面来说是非常有价值,比如说一种特有的疾病,如果能治好那是非常有价值的,但是可能的病人的数字不是特别多,这个时候比较适合从国家投入的角度去解决问题。从商业的角度来说,如果这个场景没有足够的数据,这个商业场景不可能往前走,要想有比较好的应用场景,必须有价值,也要高频,一定就有大数据,大数据驱动深度学习往前推动,我认为是因为大家越来越重视人工智能的落地性,希望在工业上产生价值而带来的结果。
陈宝权:
大小数据是一个相对的概念,我之所以提出小数据,是针对你最后要达到的目标,目标越来越高,可是你处理的对象越来越复杂,相比之下,手头所拥有的数据就会显得越小,,所以大小数据是相对的概念。如何在有限的数据的情况下,也就是说不是你想多大就有多大数据的情况下,可以仍然达到你预期的目标,这就需要小数据的概念。
颜水成:
为什么拿不到大数据,是因为这个场景根本无法拿到这个大数据,还是你根本无法标志这个数据?
罗杰波:
大数据不是简单的很多数据,没有标定的大数据是没有用处的,所以即使现在我们有能力拿到很多数据,其实要建立很强大的人工智能系统,比如说人脸识别,它是需要很多标定的数据。为什么人脸识别发展这么快,是因为有大量标定数据。在别的领域,比如医学,实际上医学应该是限定领域的问题,它应该发展得比通用图像识别要快,但是它现在没有跟上来的原因,就是因为没有足够的标定的数据。我想跟大家说一点,我们要大数据,但是我们更需要的是有标定的大数据。
山世光/主持人:
这里是不是存在一个有效大数据的问题?比如我观察一类物体做识别,你看到一个物体的大量的样本,并不等于你见了这一类物体的大量的不同的相似物体的大量样本。我刚才问题的意思是说,是否是我们现在所有碰到的AI问题,只要有有效的大数据,用深度学习,就一定可以解决好?甚至是否可以说只要机器见到了比人见到的更多的大数据,用深度学习就可以做的比人好呢?
黄铁军:
我一定要提醒大家一下,小样本是相对于大数据而存在的,不要绝对化。举个例子,比如特殊事件,异常事件,说缺乏大数据,搜集不到那些数据,车哪能老撞?这种缺少大数据的情况怎么办?没有大数据!其实这是开发是错误的,正常的数据都给你了,突然出现不正常的,异常实际上正常大数据的例外,仍然是大数据。通用智能能做到这一点,实际上仍然是大数据驱动的,因为你见到太多的正常,突然出现不正常,你就应该有发现不正常的能力,你发现异常的能力来自哪里?仍然是基于大量的数据训练。
颜水成:
在360曾经有一件事情,是关于杀毒软件的。以前的做法,用算法把病毒和非病毒分开。360有一段时间做白名单,就是把你电脑里,网上云盘里存的文件,有极其多不是病毒的样本,不一定有特别模式,存下来,有这些大数据在那个地方,当你的电脑上出现一些文件,我可以非常肯定地确定一些样本一定不是病毒,这个就跟刚才说的异常事件一样,不一定通过分类的方法,而通过白名单确定这些东西一定是好的,剩下的就是我们需要注意的就可以了。
山世光/主持人:
这次为什么勒索病毒没有搞定呢?
颜水成:
这个的原理不一样,它是一种通过新的端口漏洞进行攻击。通过早期监测发现一些异常以后,360的安全工程师就把它确定,很快360就有修复的SDK发布出来了。
罗杰波:
我赞成黄老师说的,大数据大家一般想到的都是监督学习,但是大数据学习有一个重要的手段,就是无监督学习,当你把正常的样本了解得很清楚以后,任何跟它不相像的东西就是异常的outlier。 现在很多人认识到,深度学习要向无监督学习方向发展。
山世光/主持人:
有没有哪位嘉宾觉得:即使现在有了有效的大数据,还有解决不了的问题呢?
黄铁军:
所谓的数据,就是描述你要解决问题的素材,你要解决什么问题,一定要对这个问题描述,比如说我要解决这个问题,目前的深入学习能不能解决好,那取决于背后的网络模型是不是够强大,算法是不是好,不是方向对不对,而是数据在哪儿?大家可以不断提高新的模型和算法,今天解决不好,可能过一段新模型就解决了,数据还是那些数据,大数据和神经网络、机器学习的大方向没错。
山世光/主持人:
我的意思就是,有什么问题是现在我们知道的深度学习模型搞不定的,即使我们与足够大规模的有效数据。