专栏名称: 悦智网
悦智网依托国内外独享的科技咨询资源,分享最新的行业技术评论,实时发布国内外最新研究成果,打造技术成果的专业交易平台,促进科技成果的需求转化。
目录
相关文章推荐
中国交建  ·  边关路也是振兴路 ·  7 小时前  
中国城市规划  ·  直播预告 | ... ·  12 小时前  
杭州日报  ·  知名车评人突发疾病去世!年仅40岁 ·  19 小时前  
中国交建  ·  怒江上的“一缕阳坡” ·  2 天前  
51好读  ›  专栏  ›  悦智网

无监督学习:决策树AI异常检测

悦智网  · 公众号  ·  · 2018-01-15 15:32

正文

请到「今天看啥」查看全文


不论是受监督决策树、无监督决策树或者是由二者形成的随机森林,均可用作异常检测的工具。决策树是非参数的,也不会对数据的分布做出假设。它们擅长将数字和分类相结合,高效地去处理缺失的数据。所有类型的异常数据往往都是高维度数据,而决策树可以将其全部纳入其中,并提供合理清晰的指导,以便在修剪(pruning)后仅留下重要信息。

完整的来说,还有一类半监督异常检测,其训练数据仅由正常事务组成,不包含任何异常。这也被称为‘一类分类(One Class Classification)’,并以稍微不同的方式使用一类 SVM 或自动编码器,在这里就不讨论。

事实上,有监督方法在入侵检测方面仍然比无监督方式更精确,但是它们完全无法确定新的或许有严重威胁的零时差(zero-day)攻击。

无监督决策树

无监督决策树的概念其实有点误导性,因为它其实是一个无监督的聚类算法的组合,通过创建第一个关于好坏的猜测,来决定决策树应该在何处分裂。

步骤一:对您的数据运行一个聚类算法。我在尝试了几乎所有的聚类技术后,似乎旧的 k-NN 仍然是最好的。设定 K=2 似乎很诱人,但是鉴于可能存在多种不同类型的入侵,预期好的结果是不现实的。实际的指导是将 K 至少设置为 10,并且对值进行高达 50 的试验。在此过程中,因为数据是未标记的,所以没有能够确定最佳聚类的目标函数。

虽然在文献中并没有涉及,但是我们有很好的理由去尝试一下早期关于不平衡数据集的文章中讨论过的 SMOTE (Synthetic Minority Oversampling Technique),因为该技术的主要目的是澄清聚类之间的界限。







请到「今天看啥」查看全文