专栏名称: 互联网AI早读课
专注互联网产品、用研、交互、设计、运营领域精选内容。信息爆炸的社会,每天用心的去读一篇文章,也许胜过你的走马观花。每早八点,我们等你。
目录
51好读  ›  专栏  ›  互联网AI早读课

恶意爬虫这样窥探、爬取、威胁你的网站

互联网AI早读课  · 公众号  · 科技媒体  · 2016-12-20 08:14

正文

请到「今天看啥」查看全文



恶意爬虫占比数据与 2013 年和 2014 年相比有所下降,同时真人访问的占比也有所提升,但这并不意味着恶意爬虫日渐式微。一个原因是印度、印度尼西亚等高人口总数国家的互联网新增人口有大幅提升,另一方面,恶意爬虫制造者更专注于爬虫的质量而不是数量,如今的恶意爬虫具有高持续性和可变性。


爬与反爬的斗争从未间断。过去的初级爬虫能很明显从异常的 Headers 信息甄别,但爬虫制造者从一次次爬与反爬中总结出可能被封的原因,通过不断的测试和改善爬虫程序,更新换代后的高持续性恶意爬虫通常具有以下特点中的某几个:


  • 模仿真人行为

  • 加载 Javascript 和外部资源

  • 模拟 cookie 和 useragent

  • 浏览器自动化操作

  • 变化的 IP 地址池


可能很多人认为,恶意爬虫只会威胁到少数以文本为核心价值的网站,其实这些能改变自己请求路径和请求方式的伪装者可能潜伏在任何一个网站的每一个角落,文本、图片、价格、评论、接口、架构等方方面面均有可能成为爬虫的囊中物。


纵容爬虫的危害你必须知道


从网站业务安全的角度,纵容这些伪装者的危害有以下几点:


1. 核心文本被爬


网站的核心文本可能在几小时甚至几分钟内就被恶意爬虫抓取并悄无声息的复制到别的网站。核心内容被复制会极大影响网站和网页本身在搜索引擎上的排名,低排名会导致访问量降低和销量、广告收益降低的恶性循环。








请到「今天看啥」查看全文