专栏名称: 开智学堂
未来的创造者,从这里起步。开智学堂是一个学习社区,在这里你可以与小伙伴一起学习编程和写作等21世纪人才所需的技能。
目录
相关文章推荐
中国港湾  ·  巴拿马总统穆利诺视察四桥项目 ·  昨天  
中国港湾  ·  巴拿马总统穆利诺视察四桥项目 ·  昨天  
YNTV2都市条形码  ·  放假时间定了! ·  昨天  
YNTV2都市条形码  ·  放假时间定了! ·  昨天  
江苏省邮政管理局  ·  向新而行 ... ·  2 天前  
寿光报  ·  警惕电诈新变种!事关618促销… ·  2 天前  
寿光报  ·  警惕电诈新变种!事关618促销… ·  2 天前  
51好读  ›  专栏  ›  开智学堂

一位工业界机器学习从业者的自我修炼

开智学堂  · 公众号  · 科技自媒体  · 2017-01-19 18:17

正文

请到「今天看啥」查看全文


事实证明这确实是一个简单有效的方法,用小得多的成本很好地解决了这个问题。也许这种方法看起来并不「漂亮」甚至有点「山寨」的感觉,但在工业界使用机器学习, 第一要务是带来产品或指标的实际效果 。在之后的工作中,也见到过一些新人「拿着锥子找钉子」:看到一个新发表的模型,就不计成本,不考虑产品发展阶段地想应用到产品中,这事实上是陷入了「局部最优」。 一个真正掌握机器学习的人,应该清楚地知道自己工作的「优化目标」是什么

那么另一个极端就是最有效的吗?我也在面试中遇到过从业多年的技术人员,虽然做的是算法策略相关的事情,却表示对机器学习方法不屑一顾,他的观点是「实际当中简单的方法才是最有效的」,「简单的统计已经能解决 80% 的问题,剩下的 20% 用人工规则就可以解决」。

然而就拿广告点击率预估这个问题来说,简单的统计只能得到高频广告的预估值,对于低频广告和新广告,如果想靠人工规则解决,只会变得繁琐且不准确。机器学习方法对点击率预估问题恰恰真正提供了一种优雅且通用的解决方案,早已被业界广泛采用 [1,2]。

又比如计算短语之间相似性的问题,因为自然语言中存在大量的同义词,要让机器判定「宝马」和「奔驰」表达的是类似的概念,在以往的系统中需要做大量定制化的数据挖掘工作,而近年兴起的词向量类方法,为这类问题提供了一种简单却有效的解决方案 [3]。

机器学习也要「刷新番」

随着机器学习理论、实践的发展,能被机器学习方法更好解决的问题在快速增长。

与一般人的理解相反,Google 其实并不算是一家以机器学习起家的公司。Google 在广告点击率预估上很早就开始使用机器学习,但在搜索算法上长期使用的是基于规则的策略 [4]。然而在 2015 年 10 月,Google 对外宣布在其搜索算法中引入了基于深度神经网络的 RankBrain 方法,是策略中第三重要的信号 [5,6]。2016 年 9 月,Google 宣布其使用神经网络技术训练的机器翻译系统替代传统机器翻译系统,效果大幅提升 [7]。







请到「今天看啥」查看全文