数据分析这个技能，到底能不能速成？

大数据实验室 · 公众号 · 大数据 · 2018-05-03 07:30

正文

请到「今天看啥」查看全文

外部数据的获取方式主要有以下两种。

第一种是获取 外部的公开数据集 ，一些科研机构、企业、政府会开放一些数据，你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。给大家推荐一些常用的可以获取数据集的网站：

UCI： 加州大学欧文分校开放的经典数据集，被很多数据挖掘实验室采用。

http://archive.ics.uci.edu/ml/datasets.html

国家数据： 数据来源于中国国家统计局，包含了我国经济民生等多个方面的数据。

http://data.stats.gov.cn/

CEIC： 超过128个国家的经济数据，能精确查找GDP、进出口零售，销售等深度数据。

http://www.ceicdata.com/zh-hans

中国统计信息网： 国家统计局官方网站，汇集了国民经济和社会发展统计信息。

http://www.tjcn.org/

优易数据： 由国家信息中心发起，国内领先的数据交易平台，很多免费数据。

http://www.youedata.com/

数据堂： 同为数据交易平台，包含语音识别、医疗健康、交通地理、电子商务、社交网络、图像识别等方面的数据。

http://www.datatang.com/

另一种获取外部数据费的方式就是爬虫。

比如你可以通过爬虫获取招聘网站某一职位的招聘信息，爬取租房网站上某城市的租房信息，爬取豆瓣评分评分最高的电影列表，获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据，你可以对某个行业、某种人群进行分析。

在爬虫之前你需要 先了解一些 Python 的基础知识：元素（列表、字典、元组等）、变量、循环、函数（链接的菜鸟教程非常好）…… 以及，还需要了解 如何用 Python 库（urllib、BeautifulSoup、requests、scrapy）实现网页爬虫 。如果是初学，建议从 urllib 和 BeautifulSoup 开始。（PS：后续的数据分析也需要 Python 的知识，以后遇到的问题也可以在这个教程查看）

网上的爬虫教程不要太多，爬虫上手推荐豆瓣的网页爬取，一方面是网页结构比较简单，二是豆瓣对爬虫相对比较友好。

掌握基础的爬虫之后，你还需要一些高级技巧，比如 正则表达式、模拟用户登录、使用代理、设置爬取频率、使用cookie信息 等等，来应对不同网站的反爬虫限制。

除此之外，常用的的 电商网站、问答网站、二手交易网站、婚恋网站、招聘网站 的数据，都是很好的练手方式。这些网站可以获得很有分析意义的数据，最关键的是，有很多成熟的代码，可以参考。

数据存取：SQL语言

你可能有一个疑惑，为什么没有讲到Excel。在应对万以内的数据的时候，Excel对于一般的分析没有问题，一旦数据量大，就会力不从心，数据库就能够很好地解决这个问题。而且大多数的企业，都会以SQL的形式来存储数据，如果你是一个分析师，也至少要 懂得SQL的操作，能够查询、提取公司的数据 。