Python网络爬虫从入门到进阶工作坊 | 第2季

社会学吧 · 公众号 · 社会 · 2017-09-12 18:58

正文

请到「今天看啥」查看全文

第三课. 提取信息（第二天上午）

1、利用浏览器分析网页：使用浏览器自带的开发者工具

2、正则表达式及模块详细介绍：re （用于从网页中获取所需的结构化的数据）

3、另外一个利器：Beautiful Soup

第四课. 保存数据（第二天下午）

1、文件存储格式介绍

2、文件读写

3、库：csv，pandas，os，用于创建文件夹和存储数据

4、合并数据

5、初级爬虫实战：链家、校友捐赠

第五课. 高级爬虫进阶（第三天上午）

（动态网页及反爬虫知识）

复杂动态网页：

1、抓包知识与操作详解（核心）

2、请求网页的方式：get和post

3、静态网页和动态网页

4、 json格式数据获取和存储

常见反爬虫策略：

5、 headers简介及作用

6、 cookies简介及作用（反爬虫+模拟登陆）

7、控制频率

8、验证码识别

第六课. 复杂动态网站实战（第三天下午）

（将所学应用于实战，使学员熟悉使用模板来应对未来可能遇到的不同类型、不同难度的网页爬虫）

1、爬虫总结

2、案例一：空气污染

3、案例二：电子警察

4、案例三：中国土地市场网

5、案例四：法律之星

6、案例五：私募基金

7、案例六：投资中国

8、案例七：专利数据

讲师简介

叶泽心，西南财经大学经济与管理研究院，四川爬爬帅数据科技有限公司首席技术顾问，曾获全国大学生数学建模竞赛一等奖。 拥有非常丰富的经济金融及社科类数据爬虫经验，对各类网站的数据抓取情况都非常熟悉，总结出了一套完整系统而又简洁实用的数据抓取方法，抓取过国家统计局、环保部、大众点评、中国土地市场网、公众环境研究中心等上百家网站的公开数据。

课程详情

目的： 帮助研究者轻松掌握抓取网络数据的方法，享有独家数据，发表高质量论文

时间： 2017年10月20日-22日（三天）

地点： 重庆市（详细地点另行通知）

安排： 上午9:00-12:00；下午2:00-5:00；答疑5:00-5:30

费用： 1800元/人

规模： 为保证教学质量，本次特训营限额70人（含学术中国vip会员）。

参与对象： 希望突出是针对经管和社科类的人群