专栏名称: 程序员大咖
为程序员提供最优质的博文、最精彩的讨论、最实用的开发资源;提供最新最全的编程学习资料:PHP、Objective-C、Java、Swift、C/C++函数库、.NET Framework类库、J2SE API等等。并不定期奉送各种福利。
目录
相关文章推荐
老刘说NLP  ·  GraphRAG遇上DeepResearch ... ·  昨天  
51CTO官微  ·  本命周!MiniMax ... ·  昨天  
程序猿  ·  有了这些 VS Code 的 ... ·  2 天前  
程序猿  ·  高校考试禁用红米手机!网友炸锅…… ·  2 天前  
51好读  ›  专栏  ›  程序员大咖

你用 Python 做过什么有趣的数据挖掘项目?

程序员大咖  · 公众号  · 程序员  · 2018-03-09 10:24

正文

请到「今天看啥」查看全文


  • 各应用商店:获取 App 的下载量及评论

  • 大众点评及美团网:餐饮及各类线下门店消费及评价情况

  • 汽车之家及易车:汽车的相关数据

  • 58 及搜房;房屋租售数据

  • 新浪微博:用户的各种发言及舆论

  • 财经数据:雪球及各类财经网站

  • 宏观数据网站:天气、12306 火车、机票网站

最初的产品纯粹是为基金服务。下图是在各个维度找出最有价值的 App,各种量级范围内在 30 天 /7 天增长最快及评价最好榜单。(顺便吹一下牛,我们这个榜单很早就发现小红书 App 的快速增长趋势以及在年轻人中的极佳口碑)

下图是对某个 App 的下载量跟踪,帮着基金做尽职调查。

下图是某上市公司的门店变化情况,帮着基金跟踪 TA 的增长情况。

下图是国内各个机场的实时流量,帮着基金跟踪国内出行的实时情况,或许能从一个侧面反映经济是否正在走入下行通道。

第二步:扩展思路,开源和分享

为基金服务,虽然给钱爽快,但是也让方向越走越窄。首先,基金希望信息是独享的和封闭的,投资就是投资人之间的零和博弈,公开的信息就迅速会一钱不值,基金最在乎的就是信息的独享及提前量,所以各个基金都希望我们呈现的数据及分析结果能够独家。这样迅速让我们的方向收窄以及工作的趣味性降低,其次,毕竟对于基金而言,能分析的投资对象及方向是非常有限的。而且现阶段,大部分对冲基金里面的分析员的数据分析能力其实很弱:这些分析员里面能用 VBA 或者能在 Excel 里面使用矩阵及向量乘法的人几乎可以惊为天人;能写 offset 函数的人,就应该直接提拔了;大部分人停留在一个个数网页找数据的阶段。所以和他们起来十分费劲,除了提供一些粗暴的数据,并不能产生太有价值的结果。

在这段迷茫期,本来充满激情的数据分析工作,让大家味如爵蜡,感觉自己变成了一个外包公司。不过互联网大法好,做技术做互联网的核心思路是分享和开源,我们很快回归到这一点。并且这一点最终让我们做出了改变。有些分析虽然基金不买单,但是对一般的老百姓、对一般的媒体是有价值的,于是我们试着把这些数据分析及结果写出来,发布到知乎上供大家参考。







请到「今天看啥」查看全文