正文
(本期公开课完整视频,共 51 分钟)
以下为雷锋网
对嘉宾分享内容的实录精编。
风险控制
信用评分
风险控制是消费金融领域的一大核心问题,信用评分机制则是控制风险的有效手段。信用评分机制可以简化为分类问题,即根据用户历史上的行为,来判断他是 “好人” 还是 “坏人”。假如一个用户逾期几个月,那么我们就认定他是 “坏人”,若没有逾期行为,则为 “好人”。
我们采用了机器监督学习中的经典分类算法来进行用户信用评分。评分过程可以分为以下几步:
数据导入和清洗。
因为数据采集过程中可能会采集到脏数据,此外,我们还需要剔除部分不可用、不可计算的数据,以及空数据。
特征提取。
采集数据时,我们通常会采集多达一万多个数据点,然后通过特征提取的方式提取几百个特征点。
模型选择。
在模型中,我们会运用到一些机器学习算法,比如逻辑回归、随机森林、AdaBoost、XgBoost、神经网络等。选择模型时,我们会采取 cross validation 的方式,同时运用基于 ROC 的 AUC 来决策模型的好坏。
决策。
决策过后,我们可以观察用户表现,重新提取数据训练模型,形成正向反馈循环。也就是说,随着收集到更多、更新的数据,我们的模型将不断迭代和进化。
从应用结果来看,AI 决策相比传统手工开发的算法决策,可以把决策时间从分钟级别缩短至 0.1 秒,同时降低 25% 的坏账率,每年为企业节约高达上千万的成本。
在大家熟知的,使用深度神经网络解决图像识别和云识别的问题中,一般而言,采集的数据越多,训练出的模型就越好。但金融领域不同,金融数据具有非常强的时间效应,越靠近现在的数据越具备预测效力。并不是说拥有的数据越多,模型效果就越好。因此,不断定期更新模型至关重要。
模型是基于历史数据训练出来的,在未来不发生异常事件的前提下,可以保持预测效力;一旦出现异常事件,模型的效力就有可能下降。为了保证系统预测的稳定性,我们会同时开发多个模型彼此竞赛。
比方说,我们训练出了三个模型,分配给他们不同的流量:模型 2 流量最高,模型 1 次之;模型 3 最低。一段时间后,我们可以收集到各个模型的表现,根据其准确率动态调节流量。如果某个模型表现好,就多分配一些流量,反之则减少流量。如果这个模型的效力长时间内持续下降,就将逐渐被淘汰,与此同时会有新的模型加入竞争。总而言之,多模型并行,择优进化,对于保持系统的稳定性十分重要。
通过社交网络分析反欺诈