专栏名称: 大数据风控联盟
传递大数据风控前沿讯息;聚合顶尖信贷行业精英;分享云风控实操案例 。
目录
相关文章推荐
InfoTech  ·  洗个澡把offer洗没了。。 ·  2 天前  
CDA数据分析师  ·  【北京/远程】CDA数据分析脱产就业班06月 ... ·  6 天前  
CDA数据分析师  ·  CDA数据分析人才能力模型与认证体系简介​( ... ·  4 天前  
51好读  ›  专栏  ›  大数据风控联盟

互联网金融中的数据科学

大数据风控联盟  · 公众号  · 大数据  · 2017-02-13 10:51

正文

请到「今天看啥」查看全文





在线贷款行业是一个大蛋糕,尤其对骗子来说,不管是线下的贷款中介代办包装还是线上的盗号刷单等黑产从业者,都盯上了在线贷款。反欺诈能否做好是在线贷款行业的一条生死线。简单普及下欺诈模式,可以分为一方欺诈和三方欺诈:一方欺诈通常指骗子来申请贷款后没有还款意愿造成违约,三方欺诈指欺诈分子借用冒用他人身份或协助他人伪造申请信息进行骗贷。下面重点介绍下数据科学在识别三方欺诈中的一个应用: 社交网络分析用于识别组团进件。


我们存在一个基本的假设,骗子的朋友是骗子的概率更大,正常还款的用户的朋友正常还款的概率大,并且我们要对不良的贷款中介要进行识别。因为中介骗子会帮很多还款意愿不强的人通 过提供虚假、伪造、包装申请信息的方式进行骗贷,同时还会教申请人如何应对。通过中介 或者本身就是团伙 进行集中贷款申请的风险非常高,是一种常见的欺诈类型,分析发现社交网络分析和其他 交叉检验方法能有效识别上述欺诈模式。


们定义用户和用户之间如果共用某些核心信息,那么他们之间就存在紧密联系,这些核心信息可以是手机设备、电话号码、身份证、银行卡号、邮 箱等。 以这些信息作为点,信息之间的关系作为边就可以构造出类似下面的图网络。


如上图,图中有两个用户通过手机申请贷款,一个放款成功,一个放款失败,通过用户申请中提供的信息,将其核心信息构建成一个网络图,可以看到两个用户一共关联到 3 个手机号, 3 部手机设备,两个用户是通过一个公用的手机设备联系起来的。上图的真实业务场景是尾号 979 的用户来申请时,发现与其强相关的用户已经成功放款,并且通过图上的关系已经申请调查出尾号 979 的用户是之前放款用户的配偶,若批准尾号 979 的贷款申请则将增加两人整体负债,所以最终审判拒绝掉了这笔贷款申请。


上面是一个简单例子,真实业务中欺诈与反欺诈是道高一尺魔高一丈的博弈过程,简单的反欺诈策略很容易被真正的欺诈分子发现并规避,简单策略的效果会不断下降。事实上欺诈很难被完全解决,反欺诈的一个重要思路就是不断的提高欺诈分子作弊的成本,并且保证策略准确性情况下使反欺诈策略更智能并且更复杂。


这种思路下同样是通过社交网络反欺诈,我们需要更全面的描述每个用户之间的关系,用户之间关系的定义也不止是上述这些强关系,还包括很多弱关系,比如用户间打过电话,用户间是同一单位,用户家庭住址在同一区域,用户之前是 QQ 好友等,这些更多的关系关系的叠加很容易出现下面类似的用户间非常复杂的关联网络。




构建图的同时,对每个点还可以赋予不同的属性,这些属性可以用于后续的特征工程提取。举个例子,对图中用户身份证类型的顶点,可以设置多个属性,如是否黑名单、用户资产、是否有房。后续特征工程中就可以根据顶点属性衍生出具体的特征,如一度关联的身份证是黑名单的顶点个数。用户关系网络图构建的最终目的是提升欺诈团伙的识别准确度以及实现自动化的反欺诈决策,即提升欺诈识别的效果和效率 。我们希望通过社交网络挖掘出用户更多的特征用于反欺诈模型和策略的训练,所以对于这种复杂的用户关系网络图,接下来我们 要进行两件事,其一,用户图特征提取;其二,点属性标签的补全。


  • 用户特征提取



每个用户都可以通过手机、身份证等关键信息点,获取单个用户网络的连通图(事实上对 10 亿级节点的图的查询效率已经非常低了,在实时决策的场景下需要通过算法优化来解决响应时间的问题,比如图入库的锁问题,异常点的查询超时)。对每个点计算其在图中常用的属性特征,比如度、接近中心度、 page rank 中心度、







请到「今天看啥」查看全文