在这里推荐一篇博客《OSX 上安装 Scrapy 的那些坑》
(
http://www.cnblogs.com/Ray-liang/p/4962988.html
)
4.2 建立项目和下载pycharm以及pycharm的配置
在这里选用经典的“爬取豆瓣9分书单”的例子,豆瓣书单链接:
https://www.douban.com/doulist/1264675/
4.2.1 建立项目
首先在终端中输入命令 :
scrapy startproject book
成功建立的话会出现:
New Scrapy project 'book', using template directory '/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/scrapy/templates/project', created in:
/Users/wuxinyao/Desktop/book
You can start your first spider with:
cd book
scrapy genspider example example.com
此时你返回建立的目录下是可以看见生成了个叫book的目录,进入目录后用命令行建立最主要的爬虫python文件,例子中命名为douban。指令:
scrapy genspider douban https://www.douban.com/doulist/1264675/
上面的那个网址就是爬虫所针对的网址
成功后会显示如下代码:
Created spider 'douban' using template 'basic' in module:
book.spiders.douban
4.2.2 用pycharm进行下一步操作
pycharm的下载网址 :
http://www.jetbrains.com/pycharm/download/#section=mac
必须在book主目录下建立main.py,也就是说保证main.py和自动生成的scrapy.cfg在同一层。
在main.py中输入:
from scrapy import cmdline
cmdline.execute("scrapy crawl douban”.split())
在spiders目录下找到douban.py,注释掉#allowed_domains = [‘https://www.douban.com/doulist/1264675/'],并把函数改成如下:
def parse(self, response):
print response.body