可能是最全的反爬虫及应对方案

编程派 · 公众号 · Python · 2020-10-19 11:40

正文

请到「今天看啥」查看全文

缺点：

需要增加数据埋点功能，阈值设置不好，容易造成误操作。

爬虫方法：

注册多个账号、模拟正常操作。

实现难度：★★★

Spider Trap

蜘蛛陷阱导致网络爬虫进入无限循环之类的东西，这会浪费蜘蛛的资源，降低其生产力，并且在编写得不好的爬虫的情况下，可能导致程序崩溃。礼貌蜘蛛在不同主机之间交替请求，并且不会每隔几秒钟从同一服务器请求多次文档，这意味着“礼貌”网络爬虫比“不礼貌”爬虫的影响程度要小得多。

反爬方式：

HTTP：//example.com/bar/foo/bar/foo/bar/foo/bar /

动态页面，为网络爬虫生成无限数量的文档。如由算法生成杂乱的文章页面。
文档中填充了大量字符，使解析文档的词法分析器崩溃。

此外，带蜘蛛陷阱的网站通常都有robots.txt告诉机器人不要进入陷阱，因此合法的“礼貌”机器人不会陷入陷阱，而忽视robots.txt设置的“不礼貌”机器人会受到陷阱的影响。

爬虫方法：

把网页按照所引用的css文件进行聚类，通过控制类里最大能包含的网页数量防止爬虫进入trap后出不来，对不含css的网页会给一个penalty，限制它能产生的链接数量。这个办法理论上不保证能避免爬虫陷入死循环，但是实际上这个方案工作得挺好，因为绝大多数网页都使用了css，动态网页更是如此。

缺点：

反爬方式1，2会增加很多无用目录或文件，造成资源浪费，也对正常的SEO十分不友好，可能会被惩罚。

实现难度：★★★

验证码验证

验证码（CAPTCHA）是“Completely Automated Public Turing test to tell Computers and Humans Apart”（全自动区分计算机和人类的图灵测试）的缩写，是一种区分用户是计算机还是人的公共全自动程序。可以防止：恶意破解密码、刷票、论坛灌水，有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试，实际上用验证码是现在很多网站通行的方式，我们利用比较简易的方式实现了这个功能。这个问题可以由计算机生成并评判，但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题，所以回答出问题的用户就可以被认为是人类。

1. 图片验证码

复杂型

打码平台雇佣了人力，专门帮人识别验证码。识别完把结果传回去。总共的过程用不了几秒时间。这样的打码平台还有记忆功能。图片被识别为“锅铲”之后，那么下次这张图片再出现的时候，系统就直接判断它是“锅铲”。时间一长，图片验证码服务器里的图片就被标记完了，机器就能自动识别了。

简单型

上面两个不用处理直接可以用OCR识别技术(利用python第三方库--tesserocr)来识别。

背景比较糊