专栏名称: 志军
分享Python相关技术干货,偶尔扯扯其它的
目录
相关文章推荐
Python开发者  ·  今年IT就业市场的风向已经很明显了。。。 ·  6 小时前  
Python爱好者社区  ·  确认裁员了,很严重,所有人做好准备吧! ·  2 天前  
Python爱好者社区  ·  跌爆了。。。 ·  昨天  
Python爱好者社区  ·  全球第二大成人网站,正在被打包出售。。。 ·  3 天前  
Python爱好者社区  ·  这才是最适合新手的python教程,640页超详细 ·  4 天前  
51好读  ›  专栏  ›  志军

Python 爬虫:把廖雪峰的教程转换成 PDF 电子书

志军  · 公众号  · Python  · 2017-02-09 21:00

正文

请到「今天看啥」查看全文


$ sudo apt-get install wkhtmltopdf  # ubuntu
$ sudo yum intsall wkhtmltopdf      # centos

爬虫实现

一切准备就绪后就可以上代码了,不过写代码之前还是先整理一下思绪。程序的目的是要把所有 URL 对应的 html 正文部分保存到本地,然后利用 pdfkit 把这些文件转换成一个 pdf 文件。我们把任务拆分一下,首先是把某一个 URL 对应的 html 正文保存到本地,然后找到所有的 URL 执行相同的操作。

用 Chrome 浏览器找到页面正文部分的标签,按 F12 找到正文对应的 div 标签:

,该 div 是网页的正文内容。用 requests 把整个页面加载到本地后,就可以使用 beautifulsoup 操作 HTML 的 dom 元素 来提取正文内容了。

具体的实现代码如下:用 soup.find_all 函数找到正文标签,然后把正文部分的内容保存到 a.html 文件中。

def parse_url_to_html(url):
   response = requests.get(url)
   soup = BeautifulSoup(response.content, "html5lib")
   body = soup.find_all(class_="x-wiki-content")[0]
   html = str(body)
   with open("a.html"






请到「今天看啥」查看全文


推荐文章
Python爱好者社区  ·  确认裁员了,很严重,所有人做好准备吧!
2 天前
Python爱好者社区  ·  跌爆了。。。
昨天
Python爱好者社区  ·  全球第二大成人网站,正在被打包出售。。。
3 天前
Python爱好者社区  ·  这才是最适合新手的python教程,640页超详细
4 天前
幽默与笑话集锦  ·  国外搞笑:装风扇的,看我不打死你!
8 年前
电竞头条15W  ·  10个玩家里只有4个最讨厌亚索!
8 年前