专栏名称: Xtecher
Xtecher,囊括网站、App和遍及世界名校校友与科技企业的科技创业精英圈子,致力于发现、报道最有潜力的早期科技项目和人才,打造全球最有品质的科技创业媒体。
目录
相关文章推荐
51好读  ›  专栏  ›  Xtecher

AI时代,互联网情色江湖的攻防战|Xtecher特写

Xtecher  · 公众号  ·  · 2017-05-26 13:33

正文

请到「今天看啥」查看全文


朱浩齐表示,数据显示,这背后的攻击,多数来自一线城市的郊区地带。在这些地方,能便捷获得各类硬件、软件等技术支持。

垃圾黑产的团伙化以及追逐流量而进行的攻击,成了网易成立专业内容安全部门的触发点。


人工智能:力挽狂澜


随着互联网产品日趋多样化,色情信息的传播路径和形式越发“高级”。比如,视频直播的出现让色流大军在热门直播平台的各个角落里散布垃圾内容:弹幕,评论,昵称,头像,签名,用户资料,甚至直接参与违法直播表演。

这令鉴黄人员苦不堪言。他们24小时轮流值守,查看直播间是否有色流弹幕、有无大尺度露点等,以阻止色情信息的传播,甚至有的男性鉴黄人员因为长期观看大尺度照片、视频,到家缺乏精力,被女友责难。

显然,继续用传统的人力手腕来阻止色流信息的传播,已经变得势单力薄了。色流大军的猖狂不绝,迫使网易在2009年开始提升对黄色信息的狙击能力,研发更先进的算法。当时网易已将肤色识别,纹理识别等应用到反色流领域,但肤色识别同样存在缺点——系统将黄色树叶、黄色的沙子当做了色情图片予以屏蔽。

随后,网易尝试使用非机器学习领域的算法与模型,但基于当时的算法、硬件等生态环境的不够成熟,最后试验出的效果总无法满足实际操作情况。

显然,此时的网易仍旧处在被动的防御状态,直到人工智能的出现。

2012网易开始组建内容安全部门,即网易云安全(易盾),并进一步尝试人工智能在内容安全领域的应用。而色流大军早已将垃圾信息进行各种的演绎,试图骗过系统识别。



色情消息变种图

道高一尺,魔高一丈。其中以最后两条较为隐蔽,传统文本失效后,色流大军发布了各种Unicode符号替换文本内容,如图中汽车,并修改帐号昵称,更在头像中留下微信号码,以传播色情信息。如果加上IP,帐号等不停变化,抓取难度便大幅提升。甚至,某些色流大军使出了凌波微步,传统检测方式单独处理昵称或者评论时,都可能失效。

对此,网易云安全(易盾)设计开发了“所见即所得”的过滤系统,尽可能真实地还原产品数据展示形式,将昵称和评论内容一起做语义分析,也会将头像图片经过机器识别后跟评论内容一起审核。

随着语义理解、图像识别等智能文本、图像鉴黄登场,大批鉴黄人员被从中解放了出来。除了网易云安全(易盾),更有达观数据、极限元等科技公司披坚执锐,以阻止色流信息的传播。


搏杀之利器:

文本、语言、图像


2015年下半年,达观数据CEO陈运文离开阅文集团(腾讯阅读和盛大文学合并),创办“达观数据”。同年年底“达观”完成1000万元天使轮融资,2017年获5000万元融资,专注提供大数据技术服务,其中一项业务是:文本处理功能。该功能可以自动提取关键词、打标签、文本内容检测、分类等。

陈运文告诉Xtecher,在文本信息层面,他们通过生成对抗网络,可以删除过滤色流信息。

“通过人工智能防御系统,在实战中不断升级,将最新出现的各类色流变种信息,整合到模型中,继而达到系统自我识别预判的目的,能将色流信息的各种变形变换,中间跳字等变种识别出来, 加以屏蔽。”他进一步解释“达观数据”绞杀不良信息的本事。

陈运文做出了一个直观的比喻,“我们做的就是抗生素,当然病毒会不断变异,我们不断升级抗生素的杀菌能力,有点像打疫苗。”

有了人工智能做出的疫苗系统,下次色流病菌入侵的时候,就将被自动免疫。“当然以上针对的只是文本层面的色流信息,而对于图像层面的色流信息,就需要用到图像识别。”原因是,图片中的色流信息千变万化,在图片识别上,色流工作者会更多采用非常规字体贴到图片上,比如将普通字体变形、加入艺术字等,加大了人工智能识别难度。

显然,清除带有黄色信息的图片需要从技术层面强化。

对此,另一家专注智能语音、计算机视觉等领域的人工智能技术公司----“极限元”在图像识别鉴黄领域也有自己的建树。极限元联合创始人马骥告诉Xtecher,对于色流图片中的字符内容、二维码等信息,主要通过对字符、二维码的检测、定位,来识别其中的内容信息。另一方面,通过深度学习技术,基于大量图片数据,训练图像视频识别模型,用以识别图片及视频中的涉黄内容。

马骥表示,目前直播平台涉黄图像检测的准确率高达99%以上,误报率低于1%,需要客服进行人工复核的比例不超过3%。人工复核后的数据会被收集起来进行迭代训练,这样可以不断提升识别的准确率。



极限元在线直播音视频敏感信息检测图

而除了使用文字和图片继续色情引流之外,色情传播的形式更向动态化演进。比如,女主播还会通过语音播报微信号码,让观看直播的男性添加微信,此类引流手段甚为快捷,两个小时即可引来五六百的流量,然后通过视频软件“开车”。观众只需发送几十元的红包,即可“上车”观看女主播线上举办的闭门大尺度直播盛宴。许多女主播,一晚收入数千、上万,月入十余万。

为此,除了文本和图像方面对色情信息的识别,各大人工智能技术平台更将智能语音应用到了直播领域。极限元通过深度学习技术,识别和分析出语音中的信息内容,从而判断出语音内容中是否含有敏感信息。使得在文本和图像外让反色流多一个观察维度。此外,极限元还拥有智能语音、声纹、图像识别等一系列人工智能技术,已和国家网信办、公安部、搜狗、奇虎360等机构合作。


而网易云安全(易盾)等更是专门为直播行业打造智能鉴黄系统,代替鉴黄师,解决视频鉴黄、互动过滤,将用户签名、头像等都纳入审核管理。


百战不殆:

新时代的色流大军


基于图像识别技术的视频涉黄检测,准确率可以达到99%以上,通过对人工智能的应用,极大地将人在对抗色流大军的繁琐工作中解放出来,然而即便如此,这场战斗仍旧没有打完。

原因是,目前人工智能在色流抵御的某些环节技术能力仍薄弱。比如对于新增的色流传播形式和途径缺乏了解,等待人工标注数据,学习建模后有一定滞后性。

正如极限元马骥所言,“人是懂得暗示的,除了显而易见的敏感关键词,还不断使用大量隐晦的关联词语。” 比如,色流大军经常肆无忌惮地出现在LOL游戏、直播中,用软件自动发布内含隐晦色情信息和联系方式的弹幕,继而得到流量。

此外,除了在开放性的论坛、门户网站、直播间等平台发布色流信息外,色流大军更是将战斗力转移到微信等封闭式产品中。



群控手机

打开微信附近的人,随意可见各类妩媚女性,常有美女主动打招呼,相聊甚欢,但背后,控制这个美女帐号的,可能是一个猥琐大叔。

当一个帐号添加足够人数后,会被卖给各类情色会所、化妆品公司、理财机构等。朱小虎表示,这些机构买下微信帐号后,通过朋友圈展示产品、情色资源等,以达到流量变现的目的,而这其中以色情流量转换率最高。

因为微信聊天内容属于隐私,目前似乎还难以监管,所以庞大的色流大军不断涌入,渴望分一杯羹。

随着互联网传播媒介的不断变化,色流大军亦紧随时代步伐,不放过任何可利用的产品与漏洞。

虽然人工智能技术被应用于反色流,但网易云安全(易盾)CTO朱浩齐表示,色流信息并没有因此而减少,反而随着科技的进步色流攻击越来越多。

色流产业有多大的规模,目前难以预测,腾讯、新浪、网易等各家数据都是封闭的,难以以一家数据预测产业链规模。

从传统互联网博客,到移动互联网的微信、直播等,随着互联网技术和产品形态的演进,带宽的增加、群控设备的研发等,色流大军发布垃圾消息的门槛越来越低,垃圾信息会有更多演绎。

而色流大军难以一举歼灭,产业的背后,站着一支庞大的技术力量。朱浩齐告诉Xtecher,许多黑客为了证明自己,会率先研发最新工具,以攻破各大网站的反垃圾系统。甚至各大网站的反垃圾技术还落后于黑客开发的攻击系统。

黑产大军躲在暗处,打一枪换一炮,四处游击,防不胜防。从第一封垃圾邮件打响的第一枪,到如今数十年过去,这条地下黑色产业链非但没有被根治,反而愈演愈烈。

正所谓, 有人的地方就有江湖。有互联网的地方就有色流大军。伴随着互联网产品的层出不穷,也将有技术升级的色流大军投身其中。这场人工智能时代的扫黄战仍将继续……








请到「今天看啥」查看全文