专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
彭涛说  ·  我跟AI打了个视频电话... ·  昨天  
彭涛说  ·  我跟AI打了个视频电话... ·  昨天  
爱可可-爱生活  ·  人人能懂的AI前沿解读(6.7)网页链接 ... ·  昨天  
爱可可-爱生活  ·  //@爱可可-爱生活:欢迎参与~-20250 ... ·  昨天  
爱可可-爱生活  ·  #听见微博# #微博声浪计划# ... ·  2 天前  
51好读  ›  专栏  ›  机器学习研究会

深入浅出理解决策树算法(二)-ID3算法与C4.5算法

机器学习研究会  · 公众号  · AI  · 2017-05-08 19:11

正文

请到「今天看啥」查看全文


那么“纯度”的度量方法不同,也就导致了学习算法的不同,这里我们讲解最常见的俩种算法, ID3算法与C4.5算法。



2

ID3算法



我们既然希望划分之后结点的“纯度”越来越高,那么如何度量纯度呢?

“信息熵”是度量样本集合不确定度(纯度)的最常用的指标。

在我们的ID3算法中,我们采取信息增益这个量来作为纯度的度量。


我们选取使得信息增益最大的特征进行分裂!那么信息增益又是什么概念呢?


我们前面说了, 信息熵是代表随机变量的复杂度(不确定度) 通俗理解信息熵 ,条件熵代表在某一个条件下,随机变量的复杂度(不确定度) 通俗理解条件熵


而我们这里说的的信息增益恰好是:信息熵-条件熵。


我们看如下定义:



当前样本集合D 中第 k 类样本所占的比例为 pk(k其实是下标,微信不好打),则 D  的信息熵定义为

离散属性a 有 V 个可能的取值 {a1,a2,…,aV};样本集合中,属性 a 上取值为 av 的样本集合,记为 Dv。

用属性a 对样本集 D 进行划分所获得的“ 信息增益”





信息增益表示得知属性 a 的信息而使得样本集合不确定度减少的程度


那么我们现在也很好理解了 ,在决策树算法中,我们的关键就是每次选择一个特征,特征有多个,那么到底按照什么标准来选择哪一个特征。







请到「今天看啥」查看全文