专栏名称: 大数据挖掘DT数据分析
实战数据资源提供。数据实力派社区,手把手带你玩各种数据分析,涵盖数据分析工具使用,数据挖掘算法原理与案例,机器学习,R语言,Python编程,爬虫。如需发布广告请联系: hai299014
目录
相关文章推荐
数局  ·  飞书深诺:2025欧洲春夏时尚潮流图鉴 ·  10 小时前  
大数据文摘  ·  83% 员工用 AI ... ·  昨天  
数据派THU  ·  【ICML2025】解决3D语言高斯溅射中的 ... ·  3 天前  
51好读  ›  专栏  ›  大数据挖掘DT数据分析

欺诈预测机器学习模型设计:准确率和召回率

大数据挖掘DT数据分析  · 公众号  · 大数据  · 2017-03-21 22:46

正文

请到「今天看啥」查看全文



第一个想法可能是根据人物介绍中给每个角色的评分来建立模型。然而,这种模型,我们可能不能随着时间的推移动态地追踪人物的评分。此外,我们可能会因为在介绍时的一些“好”的特征而忽略了潜在的反面人物。


相反,我们还可以建立这样一个模型,只要他/她出现在情节里面就评分一次。这将让我们在每个时间段都会有人物评分并检测出任何异常情况。但是,考虑到在每个角色单独出现的情况下可能没有任何的角色类别发展,所以这可能也不是最实际的方法。


深思熟虑之后,我们决定把模型设计成介于这两种想法之间的模型。例如,建立这样一种模型,在每次有意义的事情发生的时候对角色进行评分,比如结交新盟友,龙族领地占领等等。在这种方式下,我们仍然可以随着时间的变化来跟踪人物的评分,同时,对没有最新进展的角色也不会多加评分。




如何模拟得分?

因为我们的目的是分析每个时期的得分,所以我们的训练集要能反映出某段时间某个角色的类别行为,最后的训练数据集类似于下图:


与每个角色相关的时间不一定是连续的,因为我们关心的是那些有着重要事件发展的时间。


在这个实例当中,Jarden在3个不同的场合有着重要的角色发展并且在一段时间内持续扩充他的军队。相比之下,Dineas 在5个不同的场合有着重要的角色发展并且主管着4个龙族中心基地。


采样

在机器学习模型中,从观测数据中下采样是有必要的。采样过程本身很简单,一旦有了所需要的训练数据集,就可以在数据集上做一个基于行的采样。


然而,由于这里描述的模型是处理每个角色多个时期的样本,基于行采样可能会导致这样一种情况,即在建立模型的数据和用来验证的数据之间,场景附加的人物角色被分离开。如下表所示:


显然这并不是理想的采样,因为我们没有得到每个角色的整体描述,并且这些缺失的观测数据可能对建立一个好的模型至关重要。


出于这个原因,我们需要做 基于角色的采样 。这样做能确保在模型数据建立中包含所有场合附加的角色,或者什么都没有。







请到「今天看啥」查看全文