专栏名称: 大数据实验室
宽客俱乐部旗下美国大数据实验室,大数据研究应用。
目录
相关文章推荐
数局  ·  解数咨询:2024年保健品行业复盘 ·  14 小时前  
数局  ·  红餐:2025年卤味品类发展报告 ·  2 天前  
51好读  ›  专栏  ›  大数据实验室

数据分析这个技能,到底能不能速成?

大数据实验室  · 公众号  · 大数据  · 2018-05-03 07:30

正文

请到「今天看啥」查看全文


外部数据的获取方式主要有以下两种。

第一种是获取 外部的公开数据集 ,一些科研机构、企业、政府会开放一些数据,你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。给大家推荐一些常用的可以获取数据集的网站:

UCI: 加州大学欧文分校开放的经典数据集,被很多数据挖掘实验室采用。

http://archive.ics.uci.edu/ml/datasets.html

国家数据: 数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据。

http://data.stats.gov.cn/

CEIC: 超过128个国家的经济数据,能精确查找GDP、进出口零售,销售等深度数据。

http://www.ceicdata.com/zh-hans

中国统计信息网: 国家统计局官方网站,汇集了国民经济和社会发展统计信息。

http://www.tjcn.org/

优易数据: 由国家信息中心发起,国内领先的数据交易平台,很多免费数据。

http://www.youedata.com/

数据堂: 同为数据交易平台,包含语音识别、医疗健康、交通地理、电子商务、社交网络、图像识别等方面的数据。

http://www.datatang.com/

另一种获取外部数据费的方式就是爬虫。

比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的电影列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。

在爬虫之前你需要 先了解一些 Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数(链接的菜鸟教程非常好)…… 以及,还需要了解 如何用 Python 库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫 。如果是初学,建议从 urllib 和 BeautifulSoup 开始。(PS:后续的数据分析也需要 Python 的知识,以后遇到的问题也可以在这个教程查看)

网上的爬虫教程不要太多,爬虫上手推荐豆瓣的网页爬取,一方面是网页结构比较简单,二是豆瓣对爬虫相对比较友好。

掌握基础的爬虫之后,你还需要一些高级技巧,比如 正则表达式、模拟用户登录、使用代理、设置爬取频率、使用cookie信息 等等,来应对不同网站的反爬虫限制。

除此之外,常用的的 电商网站、问答网站、二手交易网站、婚恋网站、招聘网站 的数据,都是很好的练手方式。这些网站可以获得很有分析意义的数据,最关键的是,有很多成熟的代码,可以参考。





2

数据存取:SQL语言




你可能有一个疑惑,为什么没有讲到Excel。在应对万以内的数据的时候,Excel对于一般的分析没有问题,一旦数据量大,就会力不从心,数据库就能够很好地解决这个问题。而且大多数的企业,都会以SQL的形式来存储数据,如果你是一个分析师,也至少要 懂得SQL的操作,能够查询、提取公司的数据








请到「今天看啥」查看全文