专栏名称: 社会学吧
社会学吧最早创办于2004年,我们坚持以促进中国群学发展为宗旨,服务于广大社会学师生和爱好者。严肃但有情怀,专业不失玩乐!和我们一起热爱社会学吧!
目录
相关文章推荐
51好读  ›  专栏  ›  社会学吧

Python网络爬虫从入门到进阶工作坊 | 第2季

社会学吧  · 公众号  · 社会  · 2017-09-12 18:58

正文

请到「今天看啥」查看全文



第三课. 提取信息(第二天上午)

1、利用浏览器分析网页:使用浏览器自带的开发者工具

2、正则表达式及模块详细介绍:re (用于从网页中获取所需的结构化的数据)

3、另外一个利器:Beautiful Soup

第四课. 保存数据(第二天下午)

1、文件存储格式介绍

2、文件读写

3、库:csv,pandas,os,用于创建文件夹和存储数据

4、合并数据

5、初级爬虫实战:链家、校友捐赠


第五课. 高级爬虫进阶(第三天上午)

(动态网页及反爬虫知识)


复杂动态网页:

1、 抓包知识与操作详解(核心)

2、 请求网页的方式:get和post

3、 静态网页和动态网页

4、 json格式数据获取和存储

常见反爬虫策略:

5、 headers简介及作用

6、 cookies简介及作用(反爬虫+模拟登陆)

7、 控制频率

8、 验证码识别

第六课. 复杂动态网站实战(第三天下午)

(将所学应用于实战,使学员熟悉使用模板来应对未来可能遇到的不同类型、不同难度的网页爬虫)

1、爬虫总结

2、案例一:空气污染

3、案例二:电子警察

4、案例三:中国土地市场网

5、案例四:法律之星

6、案例五:私募基金

7、案例六:投资中国

8、案例七:专利数据


讲师简介



叶泽心,西南财经大学经济与管理研究院,四川爬爬帅数据科技有限公司首席技术顾问,曾获全国大学生数学建模竞赛一等奖。 拥有非常丰富的经济金融及社科类数据爬虫经验,对各类网站的数据抓取情况都非常熟悉,总结出了一套完整系统而又简洁实用的数据抓取方法,抓取过国家统计局、环保部、大众点评、中国土地市场网、公众环境研究中心等上百家网站的公开数据。



课程详情



目的: 帮助研究者轻松掌握抓取网络数据的方法,享有独家数据,发表高质量论文


时间: 2017年10月20日-22日 (三天)

地点: 重庆市 (详细地点另行通知)

安排: 上午9:00-12:00;下午2:00-5:00;答疑5:00-5:30

费用: 1800元/人

规模: 为保证教学质量,本次特训营限额70人(含学术中国vip会员)。

参与对象: 希望突出是针对经管和社科类的人群








请到「今天看啥」查看全文