正文
外部数据的获取方式主要有以下两种。
第一种是获取
外部的公开数据集
,一些科研机构、企业、政府会开放一些数据,你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。给大家推荐一些常用的可以获取数据集的网站:
UCI:
加州大学欧文分校开放的经典数据集,被很多数据挖掘实验室采用。
http://archive.ics.uci.edu/ml/datasets.html
国家数据:
数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据。
http://data.stats.gov.cn/
CEIC:
超过128个国家的经济数据,能精确查找GDP、进出口零售,销售等深度数据。
http://www.ceicdata.com/zh-hans
中国统计信息网:
国家统计局官方网站,汇集了国民经济和社会发展统计信息。
http://www.tjcn.org/
优易数据:
由国家信息中心发起,国内领先的数据交易平台,很多免费数据。
http://www.youedata.com/
数据堂:
同为数据交易平台,包含语音识别、医疗健康、交通地理、电子商务、社交网络、图像识别等方面的数据。
http://www.datatang.com/
另一种获取外部数据费的方式就是爬虫。
比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的电影列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。
在爬虫之前你需要
先了解一些 Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数(链接的菜鸟教程非常好)……
以及,还需要了解
如何用 Python 库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫
。如果是初学,建议从
urllib 和 BeautifulSoup
开始。(PS:后续的数据分析也需要 Python 的知识,以后遇到的问题也可以在这个教程查看)
网上的爬虫教程不要太多,爬虫上手推荐豆瓣的网页爬取,一方面是网页结构比较简单,二是豆瓣对爬虫相对比较友好。
掌握基础的爬虫之后,你还需要一些高级技巧,比如
正则表达式、模拟用户登录、使用代理、设置爬取频率、使用cookie信息
等等,来应对不同网站的反爬虫限制。
除此之外,常用的的
电商网站、问答网站、二手交易网站、婚恋网站、招聘网站
的数据,都是很好的练手方式。这些网站可以获得很有分析意义的数据,最关键的是,有很多成熟的代码,可以参考。
你可能有一个疑惑,为什么没有讲到Excel。在应对万以内的数据的时候,Excel对于一般的分析没有问题,一旦数据量大,就会力不从心,数据库就能够很好地解决这个问题。而且大多数的企业,都会以SQL的形式来存储数据,如果你是一个分析师,也至少要
懂得SQL的操作,能够查询、提取公司的数据
。