专栏名称: 连享会
连玉君老师团队分享,主页:lianxh.cn。白话计量,代码实操;学术路上,与君同行。
目录
相关文章推荐
51好读  ›  专栏  ›  连享会

倒U型+RDD:利用断点回归检验 U 形关系

连享会  · 公众号  ·  · 2025-06-04 22:00

正文

请到「今天看啥」查看全文



时间:2025 年 6 月 14-15;21-22;28-29 日每天9:00-12:30
咨询:王老师 18903405450(微信)

图片


作者 :郑伊达 (中山大学)
邮箱 [email protected]


编者按 :本推文翻译自以下论文,特此致谢!
Source : Simonsohn, 2018, "Two lines: A valid alternative to the invalid testing of U-shaped relationships with quadratic regressions". -Link-


目录

  • 1. 检验方法介绍

    • 1.1 应用背景

    • 1.2 二次回归检验 U 形关系的不足之处

    • 1.3 检验方法的理念

  • 2. 断点回归

  • 3. 实现过程

    • 3.1 生成伪随机数

    • 3.2 数据拟合

    • 3.3 划定平滑区域范围和选出待选断点

    • 3.4 利用 Robin Hood 算法寻找最终断点

  • 4. 总结

  • 5. 参考资料和相关推文

  • 6. 相关推文


温馨提示: 文中链接在微信中无法生效。请点击底部 「阅读原文」 。或直接长按/扫描如下二维码,直达原文:


1. 检验方法介绍

1.1 应用背景

在实证分析中,有时我们能够观察到 呈现出 U 形关系,又或者是倒 U 形关系。例如,工资收入与年龄之间就呈现出倒 U 形关系,人们多数在年轻时收入水平较低,中年时期其收入水平达到最高值,随后又因退休而导致收入减少 (Deming, 2019)。这些结论都是我们通过可观测数据观察到的结果,那么这样的结果能反映事实吗?有多大程度能够反映事实?基于这样的问题,我们需要进一步检验两者之间的关系,由此出现了对 U 形关系的检验。

1.2 二次回归检验 U 形关系的不足之处

在实证过程中,当研究者认为 之间存在一个 U 形关系,那么使用二次回归会是一个方便又快捷的方法,来对数据进行拟合,从而判断它们是否存在 U 形关系。但是,这种方法存在一定的风险,如果真实的回归模型不是一个二次方程,最终结果可能会误导研究者。

举一个例子,我们先定义一个函数关系式: 。很明显, 之间不是 U 形关系,如果我们用二次回归来拟合它们就会出现错误的结果。接下来我们就用 Stata 做个实验。

preserve

clear 

set obs 500       // 设置观测数
set seed 552      // 设置种子数
gen x=runiform()  // 生成x值(均匀分布)
gen log_y=log(x)  // 生成y值;y=log(x)
gen er=1*invnormal(uniform())  // 生成残差项,N~(0, 1)
gen y=log_y+er    // 生成观测值
sort x

gen x_2=x^(2)  // x二次项
reg y x x_2    // 二次回归
predict y_hat  // 得到拟合值y_hat
twoway scatter y x || line log_y x || line y_hat x

restore

上面的代码构造了一系列的伪随机观测值,真实的函数关系为 ,其残差项服从正态分布,均值为 0,方差为 1。随后我们生成一个 ,作二次回归,结果如下:

      Source |       SS           df       MS      Number of obs   =       500
-------------+----------------------------------   F(2, 497)       =    141.97
       Model |  317.282005         2  158.641002   Prob > F        =    0.0000
    Residual |   555.37353       497  1.11745177   R-squared       =    0.3636
-------------+----------------------------------   Adj R-squared   =    0.3610
       Total |  872.655534       499  1.74880869   Root MSE        =    1.0571

------------------------------------------------------------------------------
           y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           x |   7.181829   .6636716    10.82   0.000     5.877881    8.485777
         x_2 |  -4.659204   .6456834    -7.22   0.000    -5.927809   -3.390598
       _cons |  -3.082529   .1439533   -21.41   0.000    -3.365361   -2.799697
------------------------------------------------------------------------------

从二次回归的结果可以看到,二次项的回归系数为负数,而且显著。因此,结果带给我们的结论是, 之间存在倒 U 形关系。从这个例子中,可以显示出用二次回归来检测 U 形关系存在的问题,其核心问题是我们错误的假设了函数形式。

如果想了解跟多关于二次回归所引发的问题,可以参见连享会往期推文 : 平方项 = 倒U型 ?

1.3 检验方法的理念

在检验 U-shaped 关系之前,我们先对 U 形关系进行定义: 存在一个中间值 xc,小于 xc 的 为低数值组,大于 xc 的 为高数值组;在低数值组的 与高数值组的 两者之间为异号。简单来说,在 U 形关系中, 数值较低的部分其线段斜率是负的, 数值较高的部分其斜率是正的。另外,在 U-shaped 的中还包含额外的特征,例如,对称 vs 不对称,连续 vs 不连续,有极值 vs 无极值,想要深入研究这些特征需要用额外的方法去检测,在本推文中并不涉及。

这里我们引入一个概念,线性回归所计算出来的斜率系数是平均斜率,无论 的真实函数形式是如何。因此将 作两组线性回归,其两个斜率系数如果是 异号 显著 ,可以判断 存在 U 形关系。利用两段线性回归来检测是否存在 U 形关系,其最大的好处是我们无需对回归模型进行假设。

为加深对平均斜率的理解,以下我们利用 Stata 展示一个小例子。

preserve

clear

range x 0 3 4  // value-x: 0, 1, 2, 3
gen y = x^(2)  // value-y: 0, 1, 4, 9
reg y x
predict y_hat

twoway scatter y x || line y_hat x

restore

在这个例子中,我们假设真实的函数形式为: 。通过简单的计算我们可以得知 从 0 到 3 其线段的平均斜率为 3 [(1+3+5)/3]。随后,我们利用 OLS 回归,得出的斜率系数也为 3。

      Source |       SS           df       MS      Number of obs   =         4
-------------+----------------------------------   F(1, 2)         =     22.50
       Model |          45         1          45   Prob > F        =    0.0417
    Residual |           4         2           2   R-squared       =    0.9184
-------------+----------------------------------   Adj R-squared   =    0.8776
       Total |          49         3  16.3333333   Root MSE        =    1.4142

------------------------------------------------------------------------------
           y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           x |          3   .6324555     4.74   0.042     .2787635    5.721237
       _cons |         -1   1.183216    -0.85   0.487    -6.090967    4.090967
------------------------------------------------------------------------------


2. 断点回归

在上面的描述中,提到要将数据分为两部分别进行线性回归,其断点为 xc。这里我们引入 断点回归 (see e.g., Marsh & Cormier, 2001, p. 7)







请到「今天看啥」查看全文