正文
接下来就开始做数据预处理,将数据从数据库导入SPSS modeler软件中,去除羊毛党等噪声数据(1笔1000元及以下),修正缺失数据,整个流程如下图:
K-means建模流程图
流程搭建完毕,接下来就是经验选K法,通过反复测试K的数值,找到最合理的聚类结果,最终我们得出以下聚类饼状图与聚类结果图如下。
聚类饼状图
聚类结果图
上图将用户最终聚合为7类:
聚类1(占比74.5%):低质量流失未更新APP用户
聚类2(3.5%):高质量活跃已更新用户
聚类3(10.9%):中质量活跃已更新用户
聚类4(6.5%):低质量流失已更新用户
聚类5(0.7%):高质量活跃未更新用户
聚类6(0.6%):超高质量活跃已更新用户
聚类7(3.4%):低质量活跃未更新用户
可以看出聚类6和聚类7的比重都不到1%,既然如此为什么还要留着这两类用户总共聚成7类呢?这是因为聚类结果符合平台的用户情况,等级越往上人数占比越少质量越高,这就是金融界的二八定律,即20%的人贡献80%的金额,最终经过反复测试K值和对平台用户情况的把握,将K定为7最为合理。
所有聚类中没有升级APP的有聚类1、5、7;升级APP但未投资的是聚类4。聚类5和7的用户不用去做针对营销活动,因为这些用户有在投,用户到帐后如果不升级APP是无法进行下一步操作的,换句话说想要提现或是续投的话就必须升级APP。那么剩下的就是聚类1和聚类4的用户了,聚类1是无在投未更新APP的用户,而且看一下这一类用户流失平均超过半年,所以高力度红包加息券之外还要短信和外呼三管齐下,恳求用户回来投资。聚类4是没有投资但是偷偷更新的用户,可以说这类用户投资的可能性很大,也需要重点关照。