纽约大学陈溪解析机器学习和智能决策：从一个高峰到另一个高峰还有多远？

AI科技评论 · 公众号 · AI · 2017-06-29 21:18

正文

请到「今天看啥」查看全文

一个是量越来越大，从MB一直到PB，而且它的速度越来越快，以前是隔一段时间，现在这个real time，给传统的统计和机器学习提出很大的挑战，传统的数据是收集好，放在硬盘上进行一些挖掘，但是现在这个数据页都是实时进来的，比如你在百度或者做一个搜索，或者购买一个在线产品，数据就进入服务器，所以数据是不断地在线更新的，第三是数据的多样化，以前都是比较简单的，可以放到文本或者data base，现在更多包括社交数据，手机的数据，视频的数据，也都是没有非常好的结构，数据多样化的趋势越来越明显。

大家提出数据科学，这个图是我们NYU Yann Le Cun 教授机器学习课程用的第一张课件。

就是说仅仅是相当于传统的统计和计算有机结合起来，就产生了机器学习，但是光有这个机器学习是不够的，光发明了这个算法，或者说你光有这个深度学习的结构，这并不是数据科学，要跟实际的问题结合起来，像刚才李建老师、王子卓老师讲到的，把机器学习和定价问题结合起来，在线出行结合起来，才成为数据科学。这里需要很多专业知识，比如哪些地方是交通高峰期，哪些地方人口密度大，这些应用需要把计算，统计，和实际具体问题结合起来才能产生价值。

什么是机器学习，首先是数据，然后是学习算法，然后我们需要建模对数据的产生是有一定假设的，在概率模型和假设的基础上建立算法，就可以预测数据的销量，出行的时间，但是更重要的是我们可以通过预测去真正理解数据，比如说反馈出来，这个模型到底适不适合这个数据。那么机器学习一般会分为两类，一个是有监督的学习，和没有监督的学习，当然最近我们还有很多新的学习领域，像半监督学习，active learning, 强化学习等等。

监督学习的核心思想是非常简单的，首先就是通过X对Y进行预测，X是你淘宝或者京东以前历史购物的信息，这时候给你一个网页预测你会不会买，或者说放一个广告页面在上面，你会不会点开这个广告页面。有好几个不同的广告，看看有什么样的概率你会点开这个广告页面，是点开还是没有点开。然后我们是对这个function class有一个假设，我们假设这个是属于H，然后这个学习算法就拿进来，在这些training examples，通过learning algorithm就得到这个g，但是这往往并不是真正的prediction function f，但是我们希望找到一个H，使学习出来的g更加地接近f，当然我们需要有好的优化算法，因为你不可能穷尽H里面所有的function。我们要有训练样本，到底买还是没有买，根据历史数据得到的，预测的值相当于老师告诉你的。所以叫有监督的学习。

没有监督的学习，举个例子，就是把今天到场的人员进行分类，但是没有绝对的标准，按照年龄进行的序列、性别进行的序列，按照到场的人员不同的行业进行聚类。根据不同的标准，到不同的聚类，这个时候叫没有监督的学习，没有一个绝对的标准，根据你不同的需求做出的聚类或者说价格。

在机器学习未来20年的高速发展，大家多多少少看到这些词汇，大家公认投票选出了10个最受欢迎算法，然后naive bayes 分类器，然后是k-means 聚类算法，support vector machine 分类器，在一个是线性回归，还有一个logistic 回归，神经网络，随机森林。其实随机森林是非常强大的。比如说分类的话，随机森林比神经网络有更好的可解释性，分类树可以让大家看到清楚的分类的过程。

目前最火的机器学习的算法是深度学习。之所以这么powerful, 一个重要的原因是我们有了new hardware， GPU发现这个处理速度的快，各个之间的通讯非常便捷，比如说从一台机器到一台机器，从硬盘到硬盘的通讯非常缓慢，但是不同的GPU非常适合并行化，有了这个GPU才可以训练非常大规模的deep 神经网络，才导致了算法革新。另外最近像IBM公司也提出 neuromorphic chips，可能想突破这个冯诺易曼的这个体系。

这个机器学习还有一个很大的发展，就叫cloud enabled。放在云端，给各大企业提供一些接口，杉数科技也正在立这个方向，把很多相当于库存定价方面的东西变成一个接口，这个接口不仅服务于大公司，还会服务于所有的中小型公司，当你有一个货品需要定价的时候，也可以把你的数据交给这个机构。有新的数据进来很容易告诉你这个产品该给你多少钱，就慢慢变成更加广泛的通用服务。

当然机器学习最近有很多成功的案例，比如说imagenet。

这是IBM Watson，这比较早一些，当时jeopardy playing 是一个智力抢答的竞赛，IBM的Watson 能够理解问题并在数据库迅速找到答案，这里可能要做一些逻辑的推理。比如说这个数据是“临近北京的人口密集的地方是什么”，因为有这个地理位置的信息。这个是IBM deepQA问答的总负责人，他说机器学习真正使得计算机变得更加聪明，使得计算机回答一些问题，并且在回答问题当中，他学习了这个问题的回答是错误还是正确的。