正文
大数据风控是基于互联网大数据,将数据挖掘、机器学习等大数据建模方法运用到贷前信用评审、反欺诈等风控管理环节。与传统风控模型相比,大数据风控有三个基本特征:一是处理的数据种类多,更加多维度。大数据风控模型除了重视传统的信贷变量之外,还纳入了社交网络信息等信息,为信贷记录缺失的群体获取基本金融服务提供了可能性。比如,ZsetFinance的数据来源非常广泛,既包括传统的信贷记录等金融机构搜集的结构化数据,也包括法律记录、交易信息、电子商务、社交信息等非传统的数据和非结构化数据。二是关注行为数据,而不仅仅是历史财务数据。传统的信用评分模型变量均与反映被评价主体债务状况和资金延付状况等资金活动相关,但大数据信用评估更关注被评价主体的行为数据,在互联网大数据时代,电子商务、社交网络和用户的搜索行为等大数据都映射着经济主体的教育背景、工作经历、社交圈子,这些信息与信用水平可能存在某种联系。大数据技术是在充分考察借款人借款行为背后的线索和线索间的关联性基础上进行数据分析,降低贷款违约率。三是模型的建立是不断迭代和动态调整的结果。大数据风控模型的输入端是成千上万的原始数据,然后基于机器学习等技术进行大数据挖掘,寻找数据间的关联性,在关联性基础上将变量进行整合,转换成测量指标,每一种指标反映借款人某一方面的特点,比如诈骗概率、信用风险、偿还能力等。再将这些指标输入不同的模型中,最后将模型结果按一定的权重加总,最终输出的就是信用评分。在整个过程中,原始数据转换成指标需要进行不断的迭代,不同模型的权重值可以根据样本进行动态调整。
越来越多的互联网金融公司,特别是网络借贷、互联网消费金融等领域的公司开始利用大数据风控技术。2016年1月12日,美国的一家网贷平台SOFI声明不再将FICO评分纳入信贷审批决策,另外一家为消费企业提供贷款的美国公司Kabbage则将亚马逊、ebay等电子商务网站数据和Facebook、Twitter等社交网站数据纳入风险评估模型之中,新兴的互联网金融公司ZestFinance声称一切数据皆信用。
(二)大数据征信
风控与征信都是管理风险的活动,不同的是,风控一般是某一公司依靠企业自身的数据和资源进行风险管理,而征信是第三方机构“依法收集、整理、保存、加工自然人、法人及其他组织的信用信息,并对外提供信用报告、信用评估、信用信息咨询等服务,帮助客户判断、控制信用风险,进行信用管理的活动”。
传统的基于信贷历史数据的风控技术背后是社会征信体系的建设。美国是世界上征信业较为发达的国家之一,一个重要原因是美国信用卡产业非常发达。美国的征信体系主要由三类机构组成,一是商业银行和贷款机构,这些资金的贷出方在业务开展过程中积累了大量的关于客户借款、还款和违约的历史数据,这些都属于信用的强相关变量,这些机构都会将这些信用历史记录传给第二类机构,征信公司。美国有三家主要的征信公司,Experian、Equifax、TransUnion,主要负责搜集和储存征信数据,包括从地方法院收集公共记录信息和贷款机构收集逾期债务信息,并将数据进行清洗和处理后输出标准化的数据产品,提供给银行和其他金融机构,征信公司也会开发出一些信用评分产品。第三类机构就是专注于信用评分的公司,最著名的是FICO评分,主要作用是根据征信公司的信用报告,找到变量与违约概率之间的关系,即构建信用评价模型。银行和其他金融机构可以根据FICO评分进行放贷决策。