专栏名称: 程序员B计划
互联网实习@拉勾网™,打造最强找实习公众号:1.实习职位搜索,例如'java';2.公司搜索,例如'百度';3.城市搜索,例如'北京';4.综合搜索,例如'北京 PHP';5.简历投递状态查询。
目录
相关文章推荐
优职聘人才集团  ·  【毕业季】给找工作大学生的5个精简建议 ·  20 小时前  
优职聘人才集团  ·  【毕业季】给找工作大学生的5个精简建议 ·  20 小时前  
传媒招聘那些事儿  ·  【全职岗位表格】在线文档持续更新:新闻媒体/ ... ·  2 天前  
传媒招聘那些事儿  ·  【全职岗位表格】在线文档持续更新:新闻媒体/ ... ·  昨天  
上海人力资源和社会保障  ·  涵盖多个热门行业,一键投递掌握就业机会! ·  昨天  
51好读  ›  专栏  ›  程序员B计划

知名数据公司被查,你的爬虫会送老板进监狱吗?

程序员B计划  · 公众号  · 求职  · 2019-10-15 12:53

正文

请到「今天看啥」查看全文



通过什么途径爬取数据,这个是最需要重视的一点。总体来说,未公开、未经许可、且带有敏感信息的数据,不管是通过什么渠道获得,都是一种不合法的行为。

所以在采集这类比较敏感的数据时,最好先查询下相关法律法规,特别是用户个人信息、其他商业平台的信息等这类信息,寻找一条合适的途径。


个人数据


采集和分析个人信息数据,应该是当下所有互联网都会做的一件事,但是大部分个人数据都是非公开的。

想获得必须通过合法途径,可参见『网络安全法』第四十一条:

网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意...


也就是必须在提前告知收集的方式、范围、目的,并经过用户授权或同意后,才能采集使用,也就是我们常见的各种网站与 App 的用户协议中关于信息收集的部分。


相关反面案例:
8 月 20 日,澎湃新闻从绍兴市越城区公安分局获悉,该局日前侦破一起特大流量劫持案,涉案的新三板挂牌公司北京瑞智华胜科技股份有限公司,涉嫌非法窃取用户个人信息 30 亿条,涉及百度、腾讯、阿里、京东等全国 96 家互联网公司产品,目前警方已从该公司及其关联公司抓获 6 名犯罪嫌疑人。

......

北京瑞智华胜公司及其关联公司在与正规运营商合作中,会加入一些非法软件用于清洗流量、获取用户的 Cookie。

节选自澎湃新闻:『新三板挂牌公司涉窃取 30 亿条个人信息,非法牟利超千万元』[1]。


公开数据

从合法公开渠道,并且不明显违背个人信息主体意愿,都没有什么问题。但如果通过破解、侵入等“黑客”手段来获取数据,那也有相关法律等着你:

刑法第二百八十五条第三款规定的“专门用于侵入、非法控制计算机信息系统的程序、工具”:

(一)具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权获取计算机信息系统数据的功能的;

......



违反Robots协议


虽然 Robots 协议没有法规强制遵守,但 Robots 协议作为行业约定,在遵循之下会给你带来合法支持。

因为 Robots 协议具有指导意义,如果注明 Disallow 就说明是平台明显要保护的页面数据,想爬取之前应该仔细考虑一下。

数据的采集行为






请到「今天看啥」查看全文