专栏名称: 爱数据LoveData
中国统计网(www.itongji.cn),国内最大的数据分析门户网站。提供数据分析行业资讯,统计百科知识、数据分析、商业智能(BI)、数据挖掘技术,Excel、SPSS、SAS、R等数据分析软件等在线学习平台。
目录
相关文章推荐
51好读  ›  专栏  ›  爱数据LoveData

泰坦尼克号乘客生存分析(下)——机器学习预测&一些深度总结

爱数据LoveData  · 公众号  · BI  · 2017-09-04 16:58

正文

请到「今天看啥」查看全文


模型评估结果的 F1 Score 平均分是 0.81489,高于最开始的评分基准值,说明新增的特征整体上有更高的相关性。


要评估每个新特征的相关性,执行特征评估任务 evaluate_features

rake app:classifiers:titanic:evaluate_features



对比原始数据的评估结果,新特征的相关性更高些( CabinArea 由于有数据缺失,精确度不高)。


训练结束后选择 Persist trained data?(y/n):y 保存训练结果,任务会自动保存模型图像,可得到一棵决定存活与否的命运决策之树:


DecisiontreeClassifier-for-titanic_survival_prediction.png


预测结果



认为模型可信后,就可以对待预测数据进行预测,执行预测任务 predict

rake app:classifiers:titanic:predict summary=n


rake app:classifiers:titanic:predict summary=n


至此,完成了从数据分析到数据清洗、特征工程、机器学习建模以及最后的乘客生存状态预测。


人物画像



有了特征提取的规则,以及预测的模型,最后我们可以做下简单的人物画像,构建一个 persona 任务,运行:







请到「今天看啥」查看全文