编者按
:本推文翻译自以下论文,特此致谢!
Source
: Simonsohn, 2018, "Two lines: A valid alternative to the invalid testing of U-shaped relationships with quadratic regressions".
-Link-
在实证分析中,有时我们能够观察到
与
呈现出 U 形关系,又或者是倒 U 形关系。例如,工资收入与年龄之间就呈现出倒 U 形关系,人们多数在年轻时收入水平较低,中年时期其收入水平达到最高值,随后又因退休而导致收入减少 (Deming, 2019)。这些结论都是我们通过可观测数据观察到的结果,那么这样的结果能反映事实吗?有多大程度能够反映事实?基于这样的问题,我们需要进一步检验两者之间的关系,由此出现了对 U 形关系的检验。
1.2 二次回归检验 U 形关系的不足之处
在实证过程中,当研究者认为
和
之间存在一个 U 形关系,那么使用二次回归会是一个方便又快捷的方法,来对数据进行拟合,从而判断它们是否存在 U 形关系。但是,这种方法存在一定的风险,如果真实的回归模型不是一个二次方程,最终结果可能会误导研究者。
举一个例子,我们先定义一个函数关系式:
。很明显,
和
之间不是 U 形关系,如果我们用二次回归来拟合它们就会出现错误的结果。接下来我们就用 Stata 做个实验。
preserve clear set obs 500 // 设置观测数 set seed 552 // 设置种子数 gen x=runiform() // 生成x值(均匀分布) gen log_y=log(x) // 生成y值;y=log(x) gen er=1*invnormal(uniform()) // 生成残差项,N~(0, 1) gen y=log_y+er // 生成观测值 sort x gen x_2=x^(2) // x二次项 reg y x x_2 // 二次回归 predict y_hat // 得到拟合值y_hat twoway scatter y x || line log_y x || line y_hat x restore
Source | SS df MS Number of obs = 500 -------------+---------------------------------- F(2, 497) = 141.97 Model | 317.282005 2 158.641002 Prob > F = 0.0000 Residual | 555.37353 497 1.11745177 R-squared = 0.3636 -------------+---------------------------------- Adj R-squared = 0.3610 Total | 872.655534 499 1.74880869 Root MSE = 1.0571 ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- x | 7.181829 .6636716 10.82 0.000 5.877881 8.485777 x_2 | -4.659204 .6456834 -7.22 0.000 -5.927809 -3.390598 _cons | -3.082529 .1439533 -21.41 0.000 -3.365361 -2.799697 ------------------------------------------------------------------------------
从二次回归的结果可以看到,二次项的回归系数为负数,而且显著。因此,结果带给我们的结论是,
和
之间存在倒 U 形关系。从这个例子中,可以显示出用二次回归来检测 U 形关系存在的问题,其核心问题是我们错误的假设了函数形式。
如果想了解跟多关于二次回归所引发的问题,可以参见连享会往期推文 :
平方项 = 倒U型 ?
。
1.3 检验方法的理念
在检验 U-shaped 关系之前,我们先对 U 形关系进行定义:
存在一个中间值 xc,小于 xc 的
为低数值组,大于 xc 的
为高数值组;在低数值组的
与高数值组的
两者之间为异号。简单来说,在 U 形关系中,
数值较低的部分其线段斜率是负的,
数值较高的部分其斜率是正的。另外,在 U-shaped 的中还包含额外的特征,例如,对称 vs 不对称,连续 vs 不连续,有极值 vs 无极值,想要深入研究这些特征需要用额外的方法去检测,在本推文中并不涉及。
这里我们引入一个概念,线性回归所计算出来的斜率系数是平均斜率,无论
和
的真实函数形式是如何。因此将
和
作两组线性回归,其两个斜率系数如果是
异号
且
显著
,可以判断
和
存在 U 形关系。利用两段线性回归来检测是否存在 U 形关系,其最大的好处是我们无需对回归模型进行假设。
为加深对平均斜率的理解,以下我们利用 Stata 展示一个小例子。
preserve clear range x 0 3 4 // value-x: 0, 1, 2, 3 gen y = x^(2) // value-y: 0, 1, 4, 9 reg y x predict y_hat twoway scatter y x || line y_hat x restore