专栏名称: 大石头路73号
用大家都能明白的语言写经济学
目录
相关文章推荐
厦门日报  ·  淘宝客服回应商家可查看买家浏览记录 ·  昨天  
厦门日报  ·  华为官宣!将于6月11日发布 ·  2 天前  
厦门日报  ·  泽连斯基:“蛛网”为乌独立实施 ·  2 天前  
51好读  ›  专栏  ›  大石头路73号

机器学习、大数据与经济学研究

大石头路73号  · 知乎专栏  ·  · 2015-12-12 17:16

正文

请到「今天看啥」查看全文




- 机器学习技术可以在这方面帮助我们



这篇文章开始给读者介绍了一些处理数据的方法和软件,以及大型 IT 公司的处理方法,这还是挺有用的。比如在处理百万条的大型数据时需要用到 SQL,数据清理可以用 OpenRefine 和 DataWrangler。

不过计量经济学和机器学习当然是有区别的,作者认为:
Data analysis in statistics and econometrics can be broken down into four categories: 1) prediction, 2) summarization, 3) estimation, and 4) hypothesis testing. Machine learning is concerned primarily with prediction.
[...]
Machine learning specialists are often primarily concerned with developing high-performance computer systems that can provide useful predictions in the presence of challenging computational constraints.
[...]
Data science, a somewhat newer term, is concerned with both prediction and summarization, but also with data manipulation, visualization, and other similar tasks.

计量和统计学主要关注四个方面:预测、总结、估计和假设检验。机器学习主要关注预测。数据科学侧重预测和总结,也涉及数据处理、可视化等。


计量经济学关注因果关系,会遇到内生性等问题,而机器学习则会遇到“过度拟合”(overfitting)的困扰,但机器学习可以关注到计量和统计中样本以外的数据。

那么机器学习如何运用到经济学中呢?作者举了几个例子。

一个是分类和回归树分析(Classification and regression trees,简称CART),这一方法适用于分析一件事情是否发生以及发生概率的时候,即被解释变量是0或1。计量上通常用 logit 或 probit 回归。

范里安这里用的是例子是泰坦尼克号沉船事件中不同人群的死亡概率。作者用机器学习理论中的 CART 方法(R 软件中有这个包 rpart),把船上的乘客按照舱位等级和年龄进行分类。



这是树模型(Tree model)的分类,舱位分一、二、三等,一等最好,三等最差。然后做成树型的样式:







请到「今天看啥」查看全文