专栏名称: 挖地兔
金融数据采集与挖掘,开启量化金融的第一扇大门。
目录
相关文章推荐
央视财经  ·  彻底火了!暴增400%! ·  22 小时前  
央视财经  ·  金价大涨!油价飙升! ·  昨天  
财经早餐  ·  【财经早餐】2025.06.14星期六 ·  昨天  
央视财经  ·  最新!印度警方称发现一名坠机幸存者 ·  3 天前  
第一财经  ·  LABUBU爆火!多家上市公司回应合作情况 ·  3 天前  
51好读  ›  专栏  ›  挖地兔

图文实例教会你逻辑回归

挖地兔  · 公众号  ·  · 2020-03-31 09:18

正文

请到「今天看啥」查看全文




从上图可以看出, sigmoid函数 的形状像一个S,自变量的取值范围是负无穷到正无穷,因变量的取值范围在0到1之间,而且,当自变量大于0时,因变量的值大于0.5,当自变量小于0时,因变量的值小于0.5。



在二分类问题中,因变量y的值只能是0或者1,利用sigmoid函数的特征,如果把临界值设置为0.5,则当自变量大于0,因变量的取值范围在0.5和1之间时,让y等于1,相反,当自变量小于0,因变量的取值范围在0和0.5之间时,让y等于0。



因此,借助sigmoid函数的上述特性,我们可以解决分类问题。明白了这一点,下面就来看一下具体的公式。





首先,在最开始,有自变量x和因变量h(θx),因变量的取值与自变量x和参数θ的取值有关,此时因变量h(θx)的取值范围没有限制,可以是从负无穷到正无穷,如上图例子,其中,θ是要估计的参数。



接下来,为了让h(θx)的取值范围压缩到0和1之间,需要借助sigmoid函数转换一下,最终得到公式(2)中的函数,又因为逻辑函数计算的是概率,因此,最终在等式的右边是一个概率值,含义是在给定自变量x和参数θ的条件下,y=1的概率。





整个分类过程的转换思路如上图所示,下面就来看一下具体的例子。




在上图的例子中,直线将平面分成两个区域,当其大于等于0时,y=1,即直线右侧包含星星的区域,小于0时,y=0,即直线左侧包含圆圈的区域。也就是说,通过这条直线,我们把y=1和y=0的值分开了,这条线叫做 决策边界(Decision boundary)





同样,在这个例子中,曲线将平面分成两个区域,当其大于等于0时,y=1,即曲线外侧包含星星的区域,小于0时,y=0,即曲线内部包含圆圈的区域,这条曲线是决策边界。



在上面给出的两个例子中,为了让大家更直观地观察图形效果,我们直接对参数θ进行了赋值,但其实这个参数θ是需要根据数据集估计的,下面,就回到最开始的问题,如何用最大似然估计的方法得到参数θ。



由于原始式子(2)中的公式比较复杂,所以这里我们借助 logit函数 ,把原式转换成带有log的函数。





由定义可知,logit函数把原来取值范围在0到1之间的概率,转换成了负无穷到正无穷的范围,如下图。





此时,如果按照线性回归的思路,用最小二乘法,由于这里点到直线的距离可以是无穷大,没法求最小值,所以不能用该方法,而应该用最大似然估计。



第一步,计算这些点对应的log(odds)的值。





第二步,根据p和log(odds)之间的对应关系,求出p值。比如,看A点,计算出它的log(odds)等于-2.1,然后再带入p等式右侧,求出p值等于0.1。当把所有的点都按照上述方式对应到左侧之后,就能够拟合出一条S曲线。





第三步,计算该拟合曲线的可能性,将各样本点所代表的概率值相乘即可。这里需要注意的是,某一个点属于蓝色还是橙色的概率和为1,其中蓝色代表的是y=1,橙色代表的是y=0。因此,如果蓝色点的概率用p表示,则橙色点的概率则等于1-p。





在计算可能性likelihood的时候,通常习惯先取对数,然后拆分成加法计算,这里可以理解为,求likelihood的最大值和求log(likelihood)的最大值是一样的。



然后旋转第一步中右侧曲线的位置,重复执行上述操作,可以得到很多个不同的可能性likelihood的取值,最终,可能性最大的那条曲线拟合出的结果就是我们想要的预测曲线。



上面提到,我们要不断旋转第一步中右侧曲线的位置来计算可能性likelihood,然后取最大的那一个,但是旋转曲线的结果有无穷多个,如果没有一个规则的话,会经历很多次没必要的计算,浪费资源,也浪费感情。



因此,为了解决上述问题,需要介绍另外两个概念, 损失函数(loss function) 梯度下降(gradient descent)。



损失函数(loss function) 的概念,在之前介绍线性回归的文章中有介绍过,可以把它理解为真实值和根据模型预测得出的预测值之间的差异。









请到「今天看啥」查看全文