专栏名称: AI前线
我们专注大数据和机器学习,关注前沿技术和业界实践。每天发布高质量文章,技术案例等原创干货源源不断。同时有四千人的社群微课堂,每周一次业界大牛技术分享,也希望你能从这里分享前沿技术,交流深度思考。
目录
相关文章推荐
51好读  ›  专栏  ›  AI前线

给初学者的十大机器学习算法

AI前线  · 公众号  · 大数据  · 2017-10-30 14:00

正文

请到「今天看啥」查看全文


这篇博文中的十大机器学习算法是专门写给初学者的。这些算法大多数都是我在孟买大学攻读计算机工程学士学位的时候,在“数据存储和挖掘“课程中学到的。“数据存储和挖掘“课程是一个非常棒的机器学习算法领域的入门课程。由于最后两个算法(集成方法)广泛运用于 Kaggle 比赛中,我专门把它们也写到了文章中。希望你喜欢这篇文章!

四、监督学习算法
线性回归

在机器学习中,我们有一系列输入变量,它们决定了输出的变量。在输入和输出变量之间存在着一定的关系。机器学习的目标就是把这个关系量化。

图 1:线性回归被表示为一个 y = ax + b 形式的直线。

在线性回归中,输入变量与输出变量之间的关系表示为 y=ax+b 等式形式的直线。因此,线性回归的目标就是寻找系数 a 和 b。在这个例子中,b 是直线的截距,a 是直线的斜率。

图 1 是绘制出的数据集中的 x 和 y 值。该算法的目标是拟合这条直线使它与大多数点最接近。这将会减少数据点的 y 值和直线之间的距离(也就是“误差”)。

逻辑回归

线性回归的预测结果是连续的值(以厘米为单位的降雨量)。然而,通过应用一个转换函数,逻辑回归预测的是一系列离散的值(一个学生是否通过测验)。

逻辑回归最适合解决二分类问题(数据集中 y 要么等于 0,要么等于 1,其中 1 表示默认类别。例如,在预测一个事件是否会出现时,事件发生被分类为 1。在预测一个人是否生病时,生病的样本会被记为 1。它以其模型中使用的转换函数来命名 --- 逻辑函数(Logistic function)h(x)=1/(1+e^x),该函数是一个 S 形的曲线。

在逻辑回归中,它的输出是默认类别的概率(不像线性回归中输出是直接产生的)。由于输出是概率,它的范围落在 0 和 1 之间。它的输出变量(y 值)通过使用逻辑函数 h(x)=1/(1+e^x),把 x 值进行 log 转换而产生。后续在使用一个阈值来让概率值转变成二分类的结果。

图 2: 使用逻辑回归预测一个肿瘤是恶性的还是良性的。当 h(x) 大于 0.5 的时候,肿瘤被分类为恶性的。

在图 2 中,确定肿瘤是否是恶性肿瘤,默认值是 y=1(肿瘤是恶性的);x 变量可以是肿瘤的一个度量值,例如肿瘤的大小。正如图片中所示,逻辑函数把数据集中的 x 值转换到 0 至 1 的范围里。如果概率值超过了 0.5 的阈值(如图中的水平线所示),肿瘤就会被分类为恶性的。

逻辑回归等式 P(x) = e ^ (b0 +b1 * x) / (1 + e^(b0 + b1 * x)) 可以被转换为 ln(p(x) / 1-p(x)) = b0 + b1*x。

逻辑回归的目标是使用训练数据去找出能够最小化预测结果与实际结果之间误差的系数 b0 和 b1。这些系数可以通过最大似然估计的方法得出。

CART

分类和回归树(Classification and Regression Trees,CART)是一种决策树的实现,除此之外还有其他的实现,例如,ID3,C4.5。

非终结节点是根结点和内部节点。终结节点是叶子节点。每一个非终结节点代表一个输入变量(x)并把数据点在该变量上分开;叶子节点代表输出值(y)。该模型是以这样的方式来进行预测的:遍历树中的每一个分支,达到叶子结点并以叶子结点代表的值为输出。

图 3 中的决策树可以通过一个人的年龄和婚姻状况来分类一个人是会买跑车还是买面包车。如果一个人超过 30 岁并且没有结婚,我们将会这样遍历这个树:“是否超过 30 岁?" -> 是 -> "是否已婚?" -> 否。因此,该模型的输出就是跑车。

朴素贝叶斯






请到「今天看啥」查看全文