正文
,
response
)
:
return
[{
"title"
:
x
[
'title'
],
"rate"
:
x
[
'rate'
],
"url"
:
x
[
'url'
]
}
for
x
in
response
.
json
[
'subjects'
]]
你可以使用 response.json 将结果转为一个 python 的 dict 对象
你可以在 http://demo.pyspider.org/debug/tutorial_douban_explore 获得完整的代码,并进行调试。脚本中还有一个使用 PhantomJS 渲染的提取版本,将会在下一篇教程中介绍。
HTTP
HTTP 是用来传输网页内容的协议。在前面的教程中,我们已经通过 self.crawl 接口提交了 URL 进行了抓取。这些抓取就是通过 HTTP 协议传输的。
在抓取过程中,你可能会遇到类似 403 Forbidden,或者需要登录的情况,这时候你就需要正确的 HTTP 参数进行抓取了。
一个典型的 HTTP 请求包如下,这个请求是发往 http://example.com/ 的:
GET
/
HTTP
/
1.1
Host
:
example
.
com
Connection
:
keep