专栏名称: 数据分析
专注大数据,移动/互联网,IT科技,电子商务,数据分析/挖掘等领域的综合信息服务与分享平台。合作|约稿请加qq:365242293
目录
相关文章推荐
数据派THU  ·  覆盖2亿分子质谱图,捷克科学院发布DreaM ... ·  2 天前  
CDA数据分析师  ·  CDA数据分析人才能力模型与认证体系简介​( ... ·  4 天前  
数据派THU  ·  清华刘知远团队:高质量 LLM 训练数据获取 ·  3 天前  
数据派THU  ·  【ICML2025】因果感知对比学习用于鲁棒 ... ·  4 天前  
51好读  ›  专栏  ›  数据分析

数据挖掘中易犯的十大错误

数据分析  · 公众号  · 大数据  · 2017-01-10 08:48

正文

请到「今天看啥」查看全文


解决方法:
解决这个问题的典型方法是重抽样( Re-Sampling )。重抽样技术包括: bootstrap 、cross-validation、jackknife、leave-one-out...等等。


2. 只依赖一项技术(Rely on One Technique)
IDMer :这个错误和第 10 种错误有相通之处,请同时参照其解决方法。没有对比也就没有所谓的好坏,辩证法的思想在此体现无遗。

“当小孩子手拿一把锤子时,整个世界看起来就是一枚钉子。”要想让工作尽善尽美,就需要一套完整的工具箱。
不要简单地信赖你用单个方法分析的结果,至少要和传统方法(比如线性回归或线性判别分析)做个比较。

研究结果:按照《神经网络》期刊的统计,在过去 3 年来,只有 1/6 的文章中做到了上述两点。也就是说,在独立于训练样本之外的测试集上进行了开集测试,并与其它广泛采用的方法进行了对比。

解决方法:
使用一系列好的工具和方法。(每种工具或方法可能最多带来 5%~10% 的改进)。


3. 提错了问题(Ask the Wrong Question)
IDMer :一般在分类算法中都会给出分类精度作为衡量模型好坏的标准,但在实际项目中我们却几乎不看这个指标。为什么?因为那不是我们关注的目标。

a) 项目的目标:一定要锁定正确的目标

例如:
欺诈侦测(关注的是正例!)( Shannon 实验室在国际长途电话上的分析):不要试图在一般的通话中把欺诈和非欺诈行为分类出来,重点应放在如何描述正常通话的特征,然后据此发现异常通话行为。

b)







请到「今天看啥」查看全文