正文
模型评估结果的
F1 Score
平均分是 0.81489,高于最开始的评分基准值,说明新增的特征整体上有更高的相关性。
要评估每个新特征的相关性,执行特征评估任务
evaluate_features
:
rake app:classifiers:titanic:evaluate_features
对比原始数据的评估结果,新特征的相关性更高些(
CabinArea
由于有数据缺失,精确度不高)。
训练结束后选择
Persist trained data?(y/n):y
保存训练结果,任务会自动保存模型图像,可得到一棵决定存活与否的命运决策之树:
DecisiontreeClassifier-for-titanic_survival_prediction.png
预测结果
认为模型可信后,就可以对待预测数据进行预测,执行预测任务
predict
:
rake app:classifiers:titanic:predict summary=n
rake app:classifiers:titanic:predict summary=n
至此,完成了从数据分析到数据清洗、特征工程、机器学习建模以及最后的乘客生存状态预测。
人物画像
有了特征提取的规则,以及预测的模型,最后我们可以做下简单的人物画像,构建一个
persona
任务,运行: