正文
一个是量越来越大,从MB一直到PB,而且它的速度越来越快,以前是隔一段时间,现在这个real time,给传统的统计和机器学习提出很大的挑战,传统的数据是收集好,放在硬盘上进行一些挖掘,但是现在这个数据页都是实时进来的,比如你在百度或者做一个搜索,或者购买一个在线产品,数据就进入服务器,所以数据是不断地在线更新的,第三是数据的多样化,以前都是比较简单的,可以放到文本或者data base,现在更多包括社交数据,手机的数据,视频的数据,也都是没有非常好的结构,数据多样化的趋势越来越明显。
大家提出数据科学,这个图是我们NYU Yann Le Cun 教授机器学习课程用的第一张课件。
就是说仅仅是相当于传统的统计和计算有机结合起来,就产生了机器学习,但是光有这个机器学习是不够的,光发明了这个算法,或者说你光有这个深度学习的结构,这并不是数据科学,要跟实际的问题结合起来,像刚才李建老师、王子卓老师讲到的,把机器学习和定价问题结合起来,在线出行结合起来,才成为数据科学。这里需要很多专业知识,比如哪些地方是交通高峰期,哪些地方人口密度大,这些应用需要把计算,统计,和实际具体问题结合起来才能产生价值。
什么是机器学习,首先是数据,然后是学习算法,然后我们需要建模对数据的产生是有一定假设的,在概率模型和假设的基础上建立算法,就可以预测数据的销量,出行的时间,但是更重要的是我们可以通过预测去真正理解数据,比如说反馈出来,这个模型到底适不适合这个数据。那么机器学习一般会分为两类,一个是有监督的学习,和没有监督的学习,当然最近我们还有很多新的学习领域,像半监督学习,active learning, 强化学习等等。
监督学习的核心思想是非常简单的,首先就是通过X对Y进行预测,X是你淘宝或者京东以前历史购物的信息,这时候给你一个网页预测你会不会买,或者说放一个广告页面在上面,你会不会点开这个广告页面。有好几个不同的广告,看看有什么样的概率你会点开这个广告页面,是点开还是没有点开。然后我们是对这个function class有一个假设,我们假设这个是属于H,然后这个学习算法就拿进来,在这些training examples,通过learning algorithm就得到这个g,但是这往往并不是真正的prediction function f,但是我们希望找到一个H,使学习出来的g更加地接近f,当然我们需要有好的优化算法,因为你不可能穷尽H里面所有的function。我们要有训练样本,到底买还是没有买,根据历史数据得到的,预测的值相当于老师告诉你的。所以叫有监督的学习。
没有监督的学习,举个例子,就是把今天到场的人员进行分类,但是没有绝对的标准,按照年龄进行的序列、性别进行的序列,按照到场的人员不同的行业进行聚类。根据不同的标准,到不同的聚类,这个时候叫没有监督的学习,没有一个绝对的标准,根据你不同的需求做出的聚类或者说价格。
在机器学习未来20年的高速发展,大家多多少少看到这些词汇,大家公认投票选出了10个最受欢迎算法,然后naive bayes 分类器,然后是k-means 聚类算法,support vector machine 分类器,在一个是线性回归,还有一个logistic 回归,神经网络,随机森林。其实随机森林是非常强大的。比如说分类的话,随机森林比神经网络有更好的可解释性, 分类树可以让大家看到清楚的分类的过程。
目前最火的机器学习的算法是深度学习。之所以这么powerful, 一个重要的原因是我们有了new hardware, GPU发现这个处理速度的快,各个之间的通讯非常便捷,比如说从一台机器到一台机器,从硬盘到硬盘的通讯非常缓慢,但是不同的GPU非常适合并行化,有了这个GPU才可以训练非常大规模的deep 神经网络,才导致了算法革新。另外最近像IBM公司也提出 neuromorphic chips,可能想突破这个冯诺易曼的这个体系。
这个机器学习还有一个很大的发展,就叫cloud enabled。放在云端,给各大企业提供一些接口,杉数科技也正在立这个方向,把很多相当于库存定价方面的东西变成一个接口,这个接口不仅服务于大公司,还会服务于所有的中小型公司,当你有一个货品需要定价的时候,也可以把你的数据交给这个机构。有新的数据进来很容易告诉你这个产品该给你多少钱,就慢慢变成更加广泛的通用服务。
当然机器学习最近有很多成功的案例,比如说imagenet。
这是IBM Watson,这比较早一些,当时jeopardy playing 是一个智力抢答的竞赛,IBM的Watson 能够理解问题并在数据库迅速找到答案,这里可能要做一些逻辑的推理。比如说这个数据是“临近北京的人口密集的地方是什么”,因为有这个地理位置的信息。这个是IBM deepQA问答的总负责人,他说机器学习真正使得计算机变得更加聪明,使得计算机回答一些问题,并且在回答问题当中,他学习了这个问题的回答是错误还是正确的。