美女头像这么多，腾讯云安全用大数据告诉你哪个是骗子

雷峰网 · 公众号 · 科技媒体 · 2017-09-01 17:43

正文

请到「今天看啥」查看全文

第一个图看上去，可能大家会觉得很眼熟，这个很像手机的众测平台，但实际上不是，是手机破解的平台，专门用来破解手机的短信。第二和第三张图是猫池的控制终端，通过一排电脑集中去控制我们所有的猫池设备，去对相应的短信进行连接。下面的第一张图是所有这种设备卡存放的系统，最后两张图也是跟猫池相关的。

这是一个完整的产业链，刚刚我只是描述了其中的一个过程。从黑产来看，其已经形成了一个完整分工协作、高度产业化的链条，我把它分成了三个环节。上游、中游和下游。

上游是软件开发的环节，软件开发环节有高速验证码的平台，有手机卡的注册、售卖渠道、注册商以及相应微片的提供商。在中游，有专门的团队去提供批量的注册，恶意账户等过程，最后还可以进行相应号码分发的流程。在下游，所有获利的环节，包括像优惠券的获取，新手的任务，超值商品的秒杀以及活动、奖励等行为，这一切其实都在变化，这些变化是因为技术的进步，是因为整个产业的进步，更是因为对手也在采用新的思路。

从腾讯来讲，刚刚我其实与一位同事做了一些交流，传统的对抗情况下，我们多采用规则的方式去进行。但走到今天，传统的规则已经不能够适应所有的场景，所以我们在算法模型上面做了一些探讨和应用。

算法和模型作为机器学习是基础，在安全领域，我们在过往在场景的应用当中也碰到了很多坑，最开始的时候，我们其实基础的出发点是希望能够用机器学习的模型来取代传统专家规则的应用。

大家可以看到右边上面的图，右边上面我画了一个图，他有两个部分，下半部分是基于专家模型的应用，传统是我们用安全专家来生成定义的规则，我们把规则引入到引擎当中，进入到线网去进行比对、拦截。在这个基础上，我刚刚讲过我们第一步最开始碰到的，是希望把这些规则能够通过机器学习去做进一步的升级，在这个阶段我们做的工作是把这些专家规则生成的流程和具体的规则，由我们的算法工程师依据特征工程的方式来进行特征的筛选，然后我们把这些特征的筛选引入到机器学习的引擎当中，去进行异常的识别并进行拦截。

但是这个地方做完以后，我们碰到了很多的坑，一个最大的问题是，由于攻击方法是多样的，他有无限种可能，基于规则的这种学习，其实很难去覆盖到所有的环节里面，而且更大的问题是来自于我们缺乏天然的应用样品，也没有办法较好地学习，也直接导致了整个模型设计上的困难。

所以我们会想到，用更多深度学习的办法。下面我列了一个我们看到的方法，常规的像异常检测，消息的识别，以及比如像用的最多的推荐，会在不同的维度上用到不同的算法，像异常识别这里，机器学到更多的，像有监督无监督的办法都会去利用，在误差和漏洞上面都会比较高，最终输出的无非是分类跟解释，但是由于所有多样性的变化，导致整体的效果，单独应用效果并不好，垃圾箱的检测也是一样的，主要是基于有监督学习的算法，有监督学习的算法准确率高，但是覆盖率依然很差，最终分类的结果在多样化的情况下，整体的效果并不是特别好。最底下那个是我列出来的大概参考，这不是安全里面更多的内容，主要是用在推荐的场景，主要也是有监督的学习算法。所以基于这些坑，我们就想到，最终要解决安全对抗和黑产多样的手段化，不能依赖于单纯的算法，而是要多个维度解决框架的问题，需要基于腾讯现在的海量用户。

现在腾讯的社交网络每个月有8亿左右的月活动数据，我们需要依据这个庞大的数据集，去挖掘多维度的数据和模型来进行学习。

所以基于刚刚的这个思路，我们把数据的模型抽象成了四个大块。

第一大块是社交的大数据，我们会把社交的这种社交关系、内容，以及业务各种正常的请求归到数据维度上。

第二块是在样品和标签上面，因为刚刚讲过要有机器学习，所以一定要样品跟标签。

第三块来讲，机器学习里大家都会提到一个场景，有监督学习、无监督学习或叫半监督学习，这三种不同场景学习的时候，没有哪一种是可以一成不变的，换句话说，一定是多种去结合的，所以所有的场景当中，我们一定是需要这种标签和样本来进行汇总的。这个样本和标签，我们会在中间把样本和标签纳入到无监督和监督学习当中去，同时也会有算法。

第四块是根据特征，包括功能画像、批量团伙以及历史黑数据，最后根据模型进行精准预测和主动预警。我这里提了一个主要的作用，框架，最终我们把这个框架落地到三个角度，账号、内容以及风险管理，在这三个维度上面去进行落地。

我们首先讲账号，账号是万恶之源，所有一切的问题其实都是来自于账号，因为如果没有登陆账号，其实能做的无非就是传统的网络安全中间的内容，包括有漏洞，DDoS攻击，一旦有账号，里面能做的或者能获益的点就更多了。

在主机、终端、业务网络等多个维度上，因为有账号所以有更多可利用的空间，会发展出入侵、木马、恶意注册登陆等等，都是一些主要的入口。单独的这种模型已经无法识别里面的恶意，因为恶意的操控人五花八门，他的目的各异，也没有较强的规律跟统计的特性，最终是需要通过把整个恶意行为纳入监测系统，形成各种恶意的感知和模型样本进行预防和防控。