专栏名称: Python爱好者社区
人生苦短,我用Python。分享Python相关的技术文章、工具资源、精选课程、视频教程、热点资讯、学习资料等。每天自动更新和推送。
目录
相关文章推荐
Python开发者  ·  震撼!美国卡脖子下,中国工程师拖 4 ... ·  2 天前  
Python爱好者社区  ·  又见车企远程锁车?车主无奈,网友怒喷“谁敢买” ·  3 天前  
Python爱好者社区  ·  这才是最适合新手的python教程,640页超详细 ·  3 天前  
Python开发者  ·  三大云厂同时瘫了?Cursor、ChatGP ... ·  3 天前  
51好读  ›  专栏  ›  Python爱好者社区

Python三大评分卡之行为评分卡

Python爱好者社区  · 公众号  · Python  · 2018-01-09 17:30

正文

请到「今天看啥」查看全文




变成115个特征了。


区分连续变量和分类变量:


正常机器学习的话,应该会进行one-hot编码和归一化了,但是评分卡的话,我还是用传统的卡方分箱和woe编码进行转换


关于卡方分箱,一个大神提供了解决思路,感兴趣的同学可以看:


https://www.aaai.org/Papers/AAAI/1992/AAAI92-019.pdf

https://github.com/lisette-espin/pychimerge


之后数据变成这样:


185列了。







IV排序后,选择IV>0.02的变量,共58个变量IV>0.02,不知道什么是IV的同学可以参考下我第一篇文章:利用lending_club数据创建申请评分卡



多变量分析,保留相关性低于阈值0.6的变量,剩余27个变量







请到「今天看啥」查看全文