专栏名称: InfoTech

以传播大数据、解读行业趋势、数据化运营为核心的新媒体平台，已有150多万行业人士关注，荣获2013年新浪微博百强自媒体、2016年中国十大大数据领域影响力平台，关注我就是关注数据

七种常用回归技术，如何正确选择回归模型？

InfoTech · 公众号 · 大数据 · 2017-06-24 09:12

正文

请到「今天看啥」查看全文

这个问题可以使用最小二乘法轻松地完成。最小二乘法也是用于拟合回归线最常用的方法。对于观测数据，它通过最小化每个数据点到线的垂直偏差平方和来计算最佳拟合线。因为在相加时，偏差先平方，所以正值和负值没有抵消。

我们可以使用R-square指标来评估模型性能。想了解这些指标的详细信息，可以阅读：模型性能指标Part 1,Part 2 .

要点

自变量与因变量之间必须有线性关系

多元回归存在多重共线性，自相关性和异方差性。

线性回归对异常值非常敏感。它会严重影响回归线，最终影响预测值。

多重共线性会增加系数估计值的方差，使得在模型轻微变化下，估计非常敏感。结果就是系数估计值不稳定

在多个自变量的情况下，我们可以使用向前选择法，向后剔除法和逐步筛选法来选择最重要的自变量。

Logistic Regression逻辑回归

逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元（1 / 0，真/假，是/否）变量时，我们就应该使用逻辑回归。这里，Y的值从0到1，它可以用下方程表示。

odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk

上述式子中，p表述具有某个特征的概率。你应该会问这样一个问题：“我们为什么要在公式中使用对数log呢？”。

因为在这里我们使用的是的二项分布（因变量），我们需要选择一个对于这个分布最佳的连结函数。它就是Logit函数。在上述方程中，通过观测样本的极大似然估计值来选择参数，而不是最小化平方和误差（如在普通回归使用的）。

要点

它广泛的用于分类问题。

逻辑回归不要求自变量和因变量是线性关系。它可以处理各种类型的关系，因为它对预测的相对风险指数OR使用了一个非线性的log转换。

为了避免过拟合和欠拟合，我们应该包括所有重要的变量。有一个很好的方法来确保这种情况，就是使用逐步筛选方法来估计逻辑回归。

它需要大的样本量，因为在样本数量较少的情况下，极大似然估计的效果比普通的最小二乘法差。

自变量不应该相互关联的，即不具有多重共线性。然而，在分析和建模中，我们可以选择包含分类变量相互作用的影响。

如果因变量的值是定序变量，则称它为序逻辑回归。

如果因变量是多类的话，则称它为多元逻辑回归。

Polynomial Regression多项式回归

请到「今天看啥」查看全文

推荐文章

数局 · 吴世春锐评杭州六小龙：除了一条真龙外，其它“水分比较大”

2 天前

数局 · 吴香（女，1985年出生）不还彩礼，上悬赏公告！

17 小时前

直通硅谷 · 精选DATA岗位 | Yahoo、DHL、Target持续热招！

昨天

直通硅谷 · 精选DATA岗位 | Yahoo、DHL、Target持续热招！

昨天

大数据文摘 · 越脏越安全？哈佛团队最新研究：10%毒性训练让大模型百毒不侵

4 天前

大数据文摘 · 一手硬科技，一手软实力，Deepseek和Labubu让世界认识酷中国

5 天前

毒药 · 《神奇动物》+《哈利波特》经典魔法爽翻你丨毒药小视频

8 年前

治愈系心理学 · 王健林一日作息表刷爆朋友圈，终于知道富人和穷人的区别了

8 年前

父母必读 · 【父母必团】MAGSPACE磁力片第二代精钢系列 64片、81片、97片全新升级！最新的系列，给大家新年新体验

8 年前

趣味漫画 · 形势危急

8 年前

每日必看军事 · 中国最牛洲际列车曝光，轰动世界！美国、德国排队来偷学

8 年前