专栏名称: AI前线
我们专注大数据和机器学习,关注前沿技术和业界实践。每天发布高质量文章,技术案例等原创干货源源不断。同时有四千人的社群微课堂,每周一次业界大牛技术分享,也希望你能从这里分享前沿技术,交流深度思考。
目录
51好读  ›  专栏  ›  AI前线

难?不难?机器学习套路就这三个!

AI前线  · 公众号  · 大数据  · 2017-10-26 18:01

正文

请到「今天看啥」查看全文


那什么是监督学习呢?监督学习是指这么一个过程,我们通过外部的响应变量(Response Variable)来指导模型学习我们关心的任务,并达到我们需要的目的。这也就是“监督学习”中“监督”两字的由来。

也就是说,监督学习的最终目标,是使模型可以更准确地对我们所需要的响应变量建模。 比如,我们希望通过一系列特征来预测某个地区的房屋销售价格,希望预测电影的票房,或者希望预测用户可能购买的商品。这里的“销售价格”、“电影票房”以及“可能购买的商品”都是监督学习中的响应变量。

那什么是无监督学习呢?通常情况下,无监督学习并没有明显的响应变量。 无监督学习的核心,往往是希望发现数据内部的潜在结构和规律,为我们进行下一步决断提供参考。 典型的无监督学习就是希望能够利用数据特征来把数据分组,机器学习语境下叫作“聚类”。

根据不同的应用场景,聚类又有很多变种,比如认为某一个数据点属于一个类别,或者认为某一个数据点同时属于好几个类别,只是属于每个类别的概率不同等等。

无监督学习的另外一个作用是为监督学习提供更加有力的特征。通常情况下,无监督学习能够挖掘出数据内部的结构,而这些结构可能会比我们提供的数据特征更能抓住数据的本质联系,因此监督学习中往往也需要无监督学习来进行辅助。

我们简要回顾了机器学习中两大类问题的定义。在学习这两大类模型和算法的时候,有这么一个技巧,就是要不断地回归到上面提到的基本思路上去,就是这个“三步套路”,反复用这三个方面来审视当前的模型。另外,我们也可以慢慢地体会到,任何新的模型或者算法的诞生,往往都是基于旧有的模型算法,在以上三个方面中的某一个或几个方向有所创新。


监督学习的基础


监督学习的基础是三类模型:

  • 线性模型

  • 决策树模型

  • 神经网络模型

掌握这三类模型就掌握了监督学习的主干。 利用监督学习来解决的问题,占所有机器学习或者人工智能任务的绝大多数。这里面,有 90% 甚至更多的监督学习问题,都可以用这三类模型得到比较好的解决。

这三类监督学习模型又可以细分为处理两类问题:

  • 分类问题







请到「今天看啥」查看全文