专栏名称: 雷峰网
中国智能硬件第一媒体
目录
相关文章推荐
51好读  ›  专栏  ›  雷峰网

干货 | 金融AI时代已来?资深科学家教你如何用AI做金融风控(附视频)

雷峰网  · 公众号  · 科技媒体  · 2017-04-20 13:50

正文

请到「今天看啥」查看全文


大数据时代金融风控市场规模大,需求旺盛,但要解决的问题很多。

从技术层面上来讲,有三个问题。

  • 第一是价值困境,虽然已经意识到了大数据的价值,但不知如何实践,怎样从数据中挖掘出有用的信息。

  • 第二是高维困境,对于 65% 未被传统征信覆盖的人群来说,他们的特征维度非常高,往往会产生上千维变量,那么该如何处理高位特征,如何将其有效融合,形成 1+1>2 效果?

  • 第三,敏捷困境。在人工 智能 和风险评估不断发展的同时,我们的敌人的欺诈演变速度也非常快。一旦发现了业务上的一个 漏洞 ,它就会去钻模型的缺陷,利用缺陷来达到利益最大化。而单一的个体欺诈也正在演变成有组织、有规模的群体欺诈。

从战略层面来说,以上问题带来的后果是风控决策低效耗时,员工成本会很高,坏账率则更高。在金融场景里,一定需要人工智能、机器学习去帮助解决问题。

构建基于 AI 的金融风控系统

上图展示了一个理想的基于 AI 的金融风控系统。从左往右讲,我们一开始会去收集各个层面的数据源,这些数据源里包括交易数据、高价值黑名单,这些都是比较常见的传统信用数据。此外,我们也会搜集互联网行为、运营商数据、信贷申请资料等。

不同的数据源融合到一起的时候也会借鉴知识图谱技术,在知识图谱之上再去构建高价值金融属性的特征。

数据融合后有上千维度特征,接着我们会做一个基于深度学习的特征加工工程。再下一步是构建模型,这里列出了一些非常主流的机器学习、深度学习模型,像 XGBoost 或者是深度神经网络,这些模型再加上已经加工出的高价值金融特征,我们觉得这样就可以解决实际金融风控当中会遇到的问题。

而在解决问题过程中,经验会被抽象化,所以我们也会把这些经验转变成一个产品。上图列出了几个风控引擎,包括把刚刚提到的金融特征做成特征引擎、模型引擎、规则引擎,这些产品会帮助我们更好地积累数据,也更好地把已经积累的经验应用到更多场景中去。

接下来的内容也会按照这个模型来讲,首先是数据管理,关键字就是金融的知识图谱。第二部分是基于深度学习的特征工程。最后是集成模型,就是我们怎样把这些数据特征构建成一个分类模型来帮助我们判断。

知识图谱:重新定义金融数据架构体系

首先看知识图谱。知识图谱是谷歌在 2012 年 5 月发展出来的可以将搜索结果进行知识系统化,任何一个关键词都能获得完整的知识体系。本质是一个语义网络,是一个基于图的数据结构。在知识图谱当中,实体会被表示成一个节点,节点和节点之间会用关系来连接,所以这个构造方式和传统关系型数据网络是完全不同的。

在金融场景里,相比于传统的关系型数据库,它存在一些优点。

首先,金融知识图谱可扩展性更强。我们收集到的数据源无论是从结构上还是内容上来说,其实都有很大差别。如何管理这些不同结构和内容的数据源从来就是关系数据库一个大问题。

但是如果把所有的数据和知识都表示成知识图谱可以接受的结构,我们就可以把异质异构的数据统一融合在一起。无论是新的数据源变化,还是原有数据源的数据结构发生变动,都可以灵活地调整。这个灵活也是基于知识图谱的特点,无论是对于节点还是对于关系而言,增加或者更改它的属性都是非常灵活的。







请到「今天看啥」查看全文