想成AI高手？只会编程还不够，统计学家吴喜之告诉你“数据”应该这么用

人工智能头条 · 公众号 · AI · 2017-08-04 10:20

正文

请到「今天看啥」查看全文

吴教授： 的确是这样的，做任何数据分析，首先要有数据。但是怎么得到这些数据，就是一个费力不讨好的工作了。但这里的事情必须得干。比如，人们能通过编程拿到一些网络数据，但是，拿到数据以后，你怎么看待这个数据？怎么处理？用什么模型？这绝不是一个标准的教科书问题，而是一个集知识、经验、逻辑及创新能力为一体的过程。就拿我的书来说，我在书中写模型，用的虽然都是国外现成的真实数据，但却是挑选过的，如果对我们手中的应用数据，直接用书中的模型就未必合适，至少也需要做各种各样的处理。

比如过去，我参与过税务总局的一个项目，希望把数据中会逃税的那些人给找出来，但数据并未指明哪些人逃税。按照机器学习的术语，这属于＂无监督学习＂，对这个具体数据，没有教科书或文献给出任何的方法。具体的数据没有哪两个是一样的，这就要有独特的处理方法，你必须考虑基于什么样的偷税漏税机理和背景来建立模型，你总不能说大家都在偷税漏税，而的目的是要把最有可能偷税漏税的人找出来，所以你就要了解企业避税方面的思维方式和可能采用的方法。

这就是说，你既要有相关应用领域的知识，又得知道怎么来处理数据，还要会编程什么的……所有的东西你都会了，才能做好。这就是数据科学比较复杂、比较费劲的地方，需要有较强的跨学科能力。

AI科技大本营：那一般企业在数据处理上的问题多出在哪里呢？解决这里的问题需要什么样的能力？

吴教授： 处理数据还在其次，他们很多没有处理数据最起码的条件，只能做一些很简单的事情。记得在90年代，我去过一些比较落后的工厂：像是当时的天津汽车厂，生产雁牌轻型货车，从零件到成品没有完整的记录，基本上没有多少有关质量的数据；还有一个生产镍氢电池的工厂，他们希望改进质量，但缺乏关键的数据……这一类的问题有好多，你就很难做。因为到具体单位解决问题时，你希望他有什么数据，他可能就是没有，要想做好事情得从头开始干预。这说明企业生产线上的问题没有那么简单，不是你想拿什么就能拿到什么。但在生产实践上，恰恰需要这方面的数据来做质量控制，企业自己意识不强，你就很难越俎代庖。

AI科技大本营：当下机器学习非常火热，在它落地到这些具体的应用场景时，应该怎么面对这里的数据呢？

吴教授： 现在专业编程的人比较多，但真正明白这个数据，理解我们需要从数据得到什么知识的不多。所以，一开始很难泛泛回答。

就说前面税务总局的项目，我刚过去时并不清楚，就让他们先给我讲那个问题，我思考之后，就有了一个大体的概念。这些东西很难说是某一个领域的知识，它是一些领域的知识加上经验、加上数据知识……相互关联起来，然后才有进一步怎么去做的打算。

这不是简单靠几本书、几个模型就能解决的。而且，书上的模型一般比较固定，例子也相对简单，毕竟书上只能介绍那点东西。比如说回归，一般回归书上大部分篇幅写的都是一百年前的线性最小二乘回归，但在最近十几年中就发展了大量基于算法的新回归方法。仅我写的书中介绍的机器学习回归就有很多种，比如基于决策树的有随机森林、bagging、boosting，还有支持向量机及较早就发展的神经网络，它们都能够做回归，往往都比线性最小二乘回归强大……但你必须要挑一个最好的，所以就需要你把这些数据拿过来做交叉验证，要让数据自己来说话，来确定哪个模型好，哪个模型坏。而经典统计上确定模型的优劣方法严重依赖于对数据的无法证明的众多数学假定。

在机器学习方面，很重要的一点就是交叉验证，就是用一部分数据来建立一个模型，然后用另外一块数据来验证这个模型好不好。但是在经典统计里就没有这种东西。

以经典最小二乘回归为例，做了很多无法验证的数学假定，比如模型及误差的线性形式假定，样本点的独立同分布假定，分布的正态性（或大样本）假定，对损失函数的二次形式的假定等等，然后根据各种检验统计量得到ｐ值，再按照ｐ值大小得到结论（往往不加区别地认为ｐ值小于0.05就显著）。