pyspider 爬虫教程 (2)：AJAX 和 HTTP

Python开发者 · 公众号 · Python · 2017-05-11 21:35

正文

, response ) :

return [{

"title" : x [ 'title' ],

"rate" : x [ 'rate' ],

"url" : x [ 'url' ]

} for x in response . json [ 'subjects' ]]

你可以使用 response.json 将结果转为一个 python 的 dict 对象

你可以在 http://demo.pyspider.org/debug/tutorial_douban_explore 获得完整的代码，并进行调试。脚本中还有一个使用 PhantomJS 渲染的提取版本，将会在下一篇教程中介绍。

HTTP

HTTP 是用来传输网页内容的协议。在前面的教程中，我们已经通过 self.crawl 接口提交了 URL 进行了抓取。这些抓取就是通过 HTTP 协议传输的。

在抓取过程中，你可能会遇到类似 403 Forbidden，或者需要登录的情况，这时候你就需要正确的 HTTP 参数进行抓取了。

一个典型的 HTTP 请求包如下，这个请求是发往 http://example.com/ 的：

GET / HTTP / 1.1

Host : example . com

Connection : keep

推荐文章

美美耶 · 注意了！男女恋爱时10大作死行为

8 年前

管理智慧AI+ · 2017年最超值的学习社区，让企业转型不再难！（机会难得）

8 年前

电影工厂 · 19岁嫁入王室，后又成为LV太子妃，哪怕现在已经生下5个孩子，她还是这么美

8 年前

网易梦幻西游手游 · 奇了，这件衣服能扣别人的血？

7 年前

大楚网 · 武汉7所高校自主招生开考《欢乐颂》入武大考题

7 年前