专栏名称: 程序员大咖

为程序员提供最优质的博文、最精彩的讨论、最实用的开发资源；提供最新最全的编程学习资料：PHP、Objective-C、Java、Swift、C/C++函数库、.NET Framework类库、J2SE API等等。并不定期奉送各种福利。

漫画喵的100行Python代码逆袭

程序员大咖 · 公众号 · 程序员 · 2018-04-07 10:24

正文

请到「今天看啥」查看全文

标签，标签的


   
    href

是对应章节的具体网址，标签的文本部分是章节名。这样相对关系就得出了：


   
    div
   
   
    #play_0 > ul > li > a

。

首页的分析就到此结束。

2、章节页面

我们随意打开一个具体章节的页面。比如：http://www.tazhe.com/mh/9170/1187086.html

引入眼帘的是一个很干净的页面（简直是漫画界的清流，好多漫画网站上全部是广告）。

我们把 鼠标放在图片这个区域->右键->审查 。

咦，我们的右键怎么按不了？

其实呢，这个现象在小说网站上遇到的机会会更多。当我们看到比较优美的文字或是炫酷的图片，都会下意识的选中->右键->保存。而很多时候，这些资源都是有版权的。并不应该随意的传播（狠狠的打了自己的脸/(ㄒoㄒ)/~~）。因此限制鼠标右键会是一个很简单却有效的办法。

那么我们如何绕过这个陷阱呢？

很简单，我们不用右键即可。打开浏览器的开发者工具选项，找到elements这个选项。可以看到一个复杂的结构（其实和上面审查元素之后的结果一样）。之后不断的选中标签，当标签被选中时，左侧页面中对应的位置会有蓝色。多试几次，最终就能找到对应的位置。

图3 漫画图片

这是一个 img 标签，对应的 id 是 qTcms_pic 。这样找到这个 id ，就能找到这个 img 标签，根据 src 就能找到图片的具体URI地址。

接下来是找到下一张图片的地址。这时候需要查看下一页这个按钮的内容。用相同的方法，很容易定位成功。

图4 下一页

小喵本来是用scrapy来做爬虫的，看到这里的时候就果断放弃了。我们分析一下，选中的 a 标签的代码如下：

 class="next" href="javascript:a_f_qTcms_Pic_nextUrl_Href();" title="下一页">下一页

比较简单的网站，"下一页"可以用真的 a 标签和 href 属性来做。这样的好处是实现比较简单，坏处是一旦得到网页源码就能很容易的解析。而像scrapy这样的爬虫工具只能抓取静态的代码（动态的需要自己分析ajax，有点麻烦）。而显然这里的页面是动态的，使用了ajax来实现。所以光是得到网页源码并不能真的得到图片，而是必须让其中的js代码运行才可以。所以我们才需要使用浏览器或者PhantomJs这样的可以执行js代码的工具。

上面的 a 标签的代码告诉了我们很多信息。首先是告诉了我们，这个节点的位置，通过 next 这个类名可以方便的找到该节点（其实有两个类名为 next 的按钮，另一个在下面，但是功能都一样）。其次，当这个按钮被点击时会调用： a_f_qTcms_Pic_nextUrl_Href () 这个js函数。难道我们需要再研究这个函数？

不用。因为PhantomJs的角色就是一个浏览器。我们只需要向真正的用户一样点击一下这个 next 按钮，就会进入下一个页面。/* 感受到这个工具的强大了吗？ */

3、判断章节的末尾

最后一个问题就是，如何判断这个章节结束了？

我们跳到章节的最后一页，然后再次点击"下一页"，这时候会出现一个弹窗。

图5 最后一页

多次试验之后，我们会发现，只有在最后一页的时候才会弹出这个弹窗，这样的话，我们每抓取完一页，点击一次"下一页"，判断有无弹窗就知道是不是最后一页了。在右侧的开发者工具中我们能够看到，这个弹窗是一个 id 为 msgDiv 的 div （而且它的出现和消失是通过增减节点来实现的，另一种实现方法是将 display 设成 none 和 block ，这种情况可以根据display的属性来判断）。所以我们判断这个节点存不存在就行了。

至此，两种页面的解析都完成了。下一步就开始我们的代码实现吧。

四、逆袭----代码实现

1，selenium的简单用法

from selenium import webdriver