正文
6. 针对不同任务,能快速开发网络爬虫满足业务需求
主讲老师:
杨 真
曾就职于Sun中国工程研究院,负责Java 虚拟机的定制开发工作;之后就任腾讯无线部门技术负责人,引领开发了第一版的欢乐斗地主、QQ空间移动版及QQ音乐;2013年自主创业并任公司CTO,开发了多款基于爬虫、大数据及搜索引擎的商业应用及产品。硕士毕业于北京航空航天大学计算机专业,一直从事软件研发工作,具备丰富的互联网产品研发经验。
学习方式:
在线直播,共14次
每周2次(
周二、四晚上20:00-22:00
)
直播后提供录制回放视频,在线反复观看,有效期1年
升级内容:
1. 围绕微博的抓取、存储、提取和文本分析来展开
2. 增强了计算机架构与分布式系统的设计,例如负载均衡和任务队列的大篇幅介绍
3. 增加了对于数据库性能及优化的关键方法和原理的介绍,例如深翻页、查询优化、索引优化,Redis 队列原理及优化等
4. 在第一期使用简单Socket实现消息队列的基础上,增加了对成熟分布式架构(ZooKeeper)、消息队列(RabbitMQ)等的介绍,便于学员根据系统复杂度的提高而升级
课程大纲
第一课
静态网页爬虫:爬虫的基础技术
1. HTML
2. CSS 选择器
3. JavaScript 介绍
4. lxml 及 XPath
5. Python 里的网络请求
6. 高速位缓存设计:BloomFilter
7. 第一个爬虫:蚂蜂窝的游记
第二课 登录及动态网页的抓取
1. 表单
2. 网站登录及Cookie
3. Headless 的浏览器:PhantomJS