专栏名称: 大数据挖掘DT数据分析

实战数据资源提供。数据实力派社区，手把手带你玩各种数据分析，涵盖数据分析工具使用，数据挖掘算法原理与案例，机器学习，R语言，Python编程，爬虫。如需发布广告请联系： hai299014

基于大数据的银行反欺诈的分析报告

大数据挖掘DT数据分析 · 公众号 · 大数据 · 2017-02-26 20:37

正文

请到「今天看啥」查看全文

事实上小额信贷风险管理，本质上是事前对风险的主动把控，尽可能预测和防范可能出现的风险。为了满足业务的需求，我们会使用大量数据，建立相应模型，衡量风险并尽可能避免逾期，一般通过对授信人个人状况、收入能力、负债情况进行数据挖掘，进行模型化综合度量，进而确定授信对象的额度，并确定一个合理的风险定价，使风险和盈利达到一个平衡的状态。

很明显，一般互金公司做的信贷业务（一般p2p公司都无法获得类似银行的优质债权）随着信贷业务不断发展，高端客户无法获取，必然面临授信群体向着普通人群甚至是高风险人群的渗透，必然导致客户质量的参差不齐。信用风险、欺诈风险等都随之迅速上升

如果依托传统的信贷技术，事实上只能对存量市场做精耕，但是如果能结合一些新的数据源（特别是一个人的网上记录包括社交、交易行为、消费习惯等），一来可以有效的降低风险，其次对新客的拓客有着意想不到的效果（啤酒和尿布）。所以数据挖掘在当前数据大爆炸的时代就具有举足轻重的作用，也成了业内竞争的强力武器，降低坏账逾期的重要手段。

说起来很简单，但任何的技术进步，无一不是通过一次次的试错完成的。一般而言，不管是任何一种欺诈，归根到底，都是通过欺诈性地申请实现的。反欺诈策略实质就是探讨挖掘和模型技术来预测欺诈的概率。为企业发现和拒绝欺诈性交易提供科学依据

一个优秀的评分模型一定是基于统计分析技术的，可以准确和实时的进行风险评估，通过内部的模型更新增强对新的诈模式的适应能力，并通过分析各类人群的行为特征模式，利用先进的数理统计技术，进行深度的数据挖掘，不断修正风险决策模型，对审批、还款管理、催款等各个流程进行科学有效的管理，将风险控制在合理范围内。

据我所知，目前银行业对于信贷风险的常见评级方法之一是通过打分法来进行的。即基于业内长期经验，从众多风险的指标中选择若干指标，并对各个指标给予适当的权重水平，设定各个指标具体数值。进而将授信对象的具体数据代入评级体系中，分析各个指标的打分情况。

事实上，指标体系的设计本身是一个十分复杂的系统。在打分时，对于设定各指标权重大小以及每一项指标的分数并没有十分标准的依据，依靠经验确定指标的权重，参杂人为的经验，主观因素较突出，这种主观意见确定权重形成的评级办法在科学性与客观性方面都存在问题，影响了评级结果的准确性，在主观因素的引导下，加重了风险，也会造成不必要的损失

这里有要介绍另一种基于机器学习和算法的反欺诈评分模型，既神经网络模型。基于神经网络的评分模型在当前的数据挖掘过程中具有特殊的地位，它能够使模型在不断的学习中逐步成长。本文会大致介绍将神经网络的数据挖掘方法应用于小额信贷数据的过程，探索适用于互金的信用风险评判的模型。

神经网络是一种通过模仿人脑信息，类似于大脑神经突触联接的结构加工过程的智能化信息处理技术及进行信息处理的数学模型，与博弈论中的动态博弈很相似，具有自适应性、自组织性以及较强劲的稳健性，在应用过程中具有很强的鲁棒性和容错性，能够并行处理方法，具有自学习性。拥有自组织、自适应性和很强的信息综合能力等良好性能，能同时处理定量和定性的信息，能很好的协调多种输入信息关系，适用于处理复杂非线性和不确定对象，能成功的应用于多种不同的信息处理。

这里引用一张信用评分模型中的图说明。

一个神经元可以有任意n个输入

我们将输入参数记作：x1, x2, x3, x4, x5, ..., xn

同样n个权重可表达为：w1, w2, w3, w4, w5 ..., wn

简单的说，激励值就是所有输入与它们对应权重的之乘积之总和

因此，现在就可以写为: y = w1x1 + w2x2 + w3x3 + w4x4 + w5x5 +...+ wnxn

神经网络经过一系列的输入及加权计算，得到输出数据，即欺诈风险评分。

网络可以在真实的数据集环境中学习，通过不断地学习过程提高效率，交互式的调整其连接权重，每增加一次学习过程，网络对真实数据集的环境就更加了解一些，学习是一个过程，在此过程中，神经网络的参数会随着所处环境的变化自动进行调整

当所有用于估计模型的训练集样本误差达到最小时，模型就建立了，即拟合成了神经网络模型，隐含的神经网络模型决定属性的分类规则。根据需求把新的属性转换为相应的数据代入模型，便可以得到所属的分类以及相应的概率

最初神经网络具有结构较复杂、训练时间长、可解释性比较差等缺陷，所以在数据挖掘的分类技术应用中不是很被看好，但神经网络技术具有低错误率，能够承受噪声数据的能力，以及经过不断优化神经网络训练算法，尤其是不断完善很多网络剪枝算法和规则提取算法，使得神经网络算法在数据挖掘分类技术中的应用越来越被接受及认可。

当然，神经网络的信用评级模型是对现存的评级方法的一种改良，而非现存评级方法的完全替代，一个完备的评级体系既要避免主观的陷阱，也要避免统计的陷阱，因而神经网络模型本身是希望通过定量分析，为认为审核判断提供一定依据，而不仅仅依靠个人经验

事实上我认为，由于神经网络的黑盒性质，从一定程度上牺牲了模型的可解释性，比之逻辑回归、决策树，解释性显得并不是特别的强等一些缺陷。

4，先进的银行反欺诈的设计。

最近发生很多起网络资金账户被盗事件，绝大多数集中在互联网金融公司，我在某爷理财APP上的四万多理财资金也全部被盗，痛心棘手（当事人无参与），并明显感觉到了互联网金融产品的安全性缺失，大众也纷纷要求提现，导致多家互联网金融公司被挤兑处在死亡边缘。

但是反观银行业，如果自己不参与（不签字、不泄漏密码、不同意复制手机卡），没有人的银行账户能被盗，即使银行内部员工内外勾结也不能动客户一分钱，就像最近发生的40亿同业欺诈案，内外行家小心配合也依然无法通过银行的反欺诈拦截。为了你的钱和我的钱，为了让那些优秀的互联网金融公司活下去，我们今天就来探讨一下银行的反欺诈是如何设计的。

十年前我在黑客防线和黑客X档案陆续发表《徒手搞定整个机房》、《徒手对抗驱动级病毒》等安全类文章的那段时间，是国内个人电脑安全最动荡的日子，随便一个会点鼠标的网民随便下载几个工具就可以号称黑客干点恶作剧，后来杀出个周鸿祎采用流氓卫士辅以收编各路红黑高手的手段，才让网络安全的话题逐渐的回归了平淡。