专栏名称: Python开发者
人生苦短,我用 Python。伯乐在线旗下账号「Python开发者」分享 Python 相关的技术文章、工具资源、精选课程、热点资讯等。
目录
相关文章推荐
51好读  ›  专栏  ›  Python开发者

pyspider 爬虫教程 (2):AJAX 和 HTTP

Python开发者  · 公众号  · Python  · 2017-05-11 21:35

正文

请到「今天看啥」查看全文


, response ) :

return [{

"title" : x [ 'title' ],

"rate" : x [ 'rate' ],

"url" : x [ 'url' ]

} for x in response . json [ 'subjects' ]]


你可以使用 response.json 将结果转为一个 python 的 dict 对象


你可以在 http://demo.pyspider.org/debug/tutorial_douban_explore 获得完整的代码,并进行调试。脚本中还有一个使用 PhantomJS 渲染的提取版本,将会在下一篇教程中介绍。


HTTP


HTTP 是用来传输网页内容的协议。在前面的教程中,我们已经通过 self.crawl 接口提交了 URL 进行了抓取。这些抓取就是通过 HTTP 协议传输的。


在抓取过程中,你可能会遇到类似 403 Forbidden,或者需要登录的情况,这时候你就需要正确的 HTTP 参数进行抓取了。


一个典型的 HTTP 请求包如下,这个请求是发往 http://example.com/ 的:


GET / HTTP / 1.1

Host : example . com

Connection : keep







请到「今天看啥」查看全文