主要观点总结
这篇文章提供了一系列关于Stata软件的教程和相关信息,包括Stata19和Stata18的新功能、统计功能、数据作图、学习资源等。同时,文章还探讨了因果推断中的处理效应估计量,如ATE、ATT、ATU、LATE、MTE等,并介绍了它们在不同情境下的应用和意义。此外,文章还介绍了边际处理效应(MTE)的概念、估计方法和与其他效应估计量的关系。最后,文章还推荐了用于数据处理和计量分析的Stata、R和Python软件,并提供了相关的数据处理技巧和数据来源。
关键观点总结
关键观点1: Stata软件教程和相关信息
文章介绍了Stata19和Stata18的新功能,包括ML、CS升级,及Stata资料分享,提供了统计功能、数据作图、学习资源等。
关键观点2: 因果推断中的处理效应估计量
文章讨论了ATE、ATT、ATU、LATE、MTE等处理效应估计量,并解释了它们在不同情境下的应用和意义。
关键观点3: 边际处理效应(MTE)
文章介绍了MTE的概念、估计方法和与其他效应估计量的关系,强调了它对于理解处理效应异质性和个体选择行为的重要性。
关键观点4: 数据处理和计量分析软件
文章推荐了用于数据处理和计量分析的Stata、R和Python软件,并提供了相关的数据处理技巧和数据来源。
正文
,或通过反转处理编码实现。
ATE 是 ATT 和 ATU 的加权平均:
在观测性研究中,简单比较处理组和控制组的平均结果E[Y|D=1] - E[Y|D=0] 并不等于 ATE 或 ATT。这个差异实际上等于
。
花括号中的项被称为“选择偏差”,它反映了处理组和控制组在未接受处理情况下的潜在结果差异(即基线差异)。
如果选择偏差不为零,说明处理组和控制组在接受处理前就存在系统性差异。
例如,参加职业培训的人(D=1)可能比不参加的人(D=0)本身就更有动力(可能导致更高的 Y(0)或更需要帮助(可能导致更低的Y(0))。
随机对照试验RCT通过随机分配处理,旨在消除选择偏差,使得处理组和控制组在期望上具有可比性。
观测性研究中的各种方法(匹配、回归、IPW、IV 等)都是为了通过控制混淆变量来尽可能地消除或减小选择偏差。
从 ATE/ATT/ATU 差异理解选择过程,在观测数据中,ATE、ATT 和 ATU 的差异揭示了选择过程的性质。如果 ATT > ATE > ATU,这通常意味着那些选择接受处理的人(处理组)从中获得的收益高于平均水平,而那些选择不接受处理的人(控制组)如果接受处理,其收益将低于平均水平。这表明存在“正向选择”(基于收益选择)。
反之,如果 ATT < ATE < ATU,则表明存在“负向选择”。这种差异的根源在于,观测数据中的处理组和控制组并非人群的随机子集,他们在潜在结果上本身就可能存在差异。例如,ATT 和 ATE 的差异主要由E[Y(0)|D=1]与 E[Y(0)]的差异驱动,而 ATU 和 ATE 的差异主要由E[Y(1)|D=0]与 (E[Y(1)]的差异驱动。通过比较这三个估计量,研究者可以推断选择偏差的方向和可能的原因。
政策相关性决定估计量选择,选择 ATE、ATT 还是 ATU,根本上应由研究问题和政策目标驱动,而非仅仅出于方法上的便利。例如,如果一项政策(如自愿参与的培训项目)只影响选择加入的子群体,那么使用 ATE 可能无法准确反映该项目对实际参与者的影响(ATT 更相关)或其对未参与者的潜在影响(ATU 更相关)。
研究者必须根据决策背景明确其目标估计量,并论证其选择的合理性。虽然 RCT 自然地估计 ATE,但如果现实世界的实施涉及自我选择,那么试验得到的 ATE 对于评估实际运行中的项目效果可能并非最相关的参数。
2️⃣如果处理的分配不完美,可以考虑局部平均处理效应 (LATE)
在理想的实验中,所有被分配到处理组的个体都会接受处理,而分配到控制组的个体则不会。然而,在现实世界的实验(包括随机对照试验)和准实验研究中,经常出现不依从(non-compliance)的情况,即个体实际接受的处理 (D) 与其被分配到的处理 (Z) 不一致。
例如,被分配到服药组的患者可能忘记服药 (Z=1, D=0),而被分配到安慰剂组的患者可能通过其他渠道获得了药物 (Z=0, D=1)。这种不依从性给因果效应的估计带来了挑战。
首先,意向性分析 (Intent-to-Treat, ITT): ITT 分析比较基于最初随机分配的组别 (Z=1) vs (Z=0) 之间的平均结果差异,而忽略个体实际接受的处理 (D)。其估计量为ITT = E[Y|Z=1] - E[Y|Z=0]。
ITT 保留了随机分组的优势,避免了因依从行为本身可能引入的选择偏差(因为依从行为发生在随机化之后),因此 ITT 估计量通常被认为是无偏的(针对“分配效应”)。
它估计的是提供或意图进行处理的效果,这对于评估公共卫生政策或项目推广策略的效果通常很有意义。
不过,由于混合了依从者和不依从者的结果,ITT 通常会低估处理本身对那些实际接受并遵守了处理方案的个体的真实效果(即处理本身的效力)。
依从者分析/处理接受分析 (As-Ttreated / Per-protocol analysis)(一般不推荐): 这种分析直接比较实际接受了处理的个体 (D=1) 与实际未接受处理的个体 (D=0) 之间的结果差异,完全忽略了最初的随机分配。不过,这种方法破坏了随机化的基础。因为依从行为(选择接受或不接受处理)通常与个体的潜在结果相关(例如,病情更重的患者可能更倾向于寻求治疗),直接比较会导致严重的选择偏差。因此,“As-treated”分析通常会产生有偏的因果效应估计,一般不被推荐用于因果推断。
B. 依从者类型划分 (Angrist, Imbens, Rubin)
为了在存在不依从的情况下估计处理本身的效应,Angrist, Imbens, 和 Rubin (1996) 提出了基于个体对处理分配 (Z)的潜在反应来划分人群的方法。假设 D_i(z)表示个体 i在被分配到处理状态
时,其
实际会采取
的处理状态D=1或D=0. 根据D_i(1) 和D_i(0) 的组合,可以将人群分为四类:
依从者 (Compliers):D_i(1)=1且D_i(0)=0。这类人当且仅当被分配到处理组时才接受处理,他们完全遵守分配。
从不接受者 (Never-takers): D_i(1)=0 且D_i(0)=0。这类人无论被分配到哪个组,都不会接受处理。
总是接受者 (Always-takers): D_i(1)=1 且 D_i(0)=1。这类人无论被分配到哪个组,总会设法接受处理。
反抗者 (Defiers): D_i(1)=0 且D_i(0)=1。这类人总是做与分配相反的事情:分配到处理组则不处理,分配到控制组反而去处理。
C. 局部平均处理效应 (LATE) / 依从者平均因果效应 (complier average causal effect, CACE)
LATE(或 CACE)指的是处理对依从者 (Compliers) 这个特定子群体的平均因果效应。估计量 (Estimand): LATE = E[Y(1) - Y(0) | D_i(1)=1, D_i(0)=0]。
LATE 主要用于存在不依从性的实验或准实验(如使用工具变量)中,目的是估计处理本身的效果,而不是处理分配的效果。例如,在一项鼓励使用某种新肥料的随机实验中(Z=1) 表示收到鼓励信息,(Z=0) 表示未收到,有些农民收到信息但未使用新肥料(Never-taker 或 Non-complier in treatment arm),有些未收到信息的农民可能自己采用了新肥料(Always-taker 或 Non-complier in control arm)。LATE 估计的是新肥料对那些因为收到了鼓励信息而决定使用新肥料的农民(即依从者)的产量的平均影响。
LATE ≠ ITT,
ITT 是对所有被分配到处理组的人(相对于控制组)的平均效应,包括了依从者、从不接受者和总是接受者(如果存在于控制组),因此效应通常被稀释。LATE 只关注依从者。
LATE ≠ ATE,ATE 是对整个人群的平均效应,包括所有四种类型的人。LATE 只针对依从者。
LATE ≠ ATT,ATT 是对所有实际接受了处理的人的平均效应 (D=1),这包括了依从者和总是接受者。LATE 只关注依从者。
LATE 的“局部性”表现在,LATE 的值取决于定义依从者的工具变量(即处理分配机制)。
使用不同的工具(例如,不同的鼓励方式)可能会影响不同的人群(不同的依从者群体)
,从而得到不同的 LATE 估计值。
在存在不依从的情况下,LATE提供了一个对处理本身效果的因果估计,且该估计针对的是一个由工具变量(政策干预)实际影响的、具有政策意义的子群体(依从者);可以通过工具变量(IV)方法进行识别和估计。不过,估计结果只适用于依从者,其外部效度可能有限,不能直接推广到整个人群或其他子群体(如从不接受者、总是接受者);依从者群体在数据中是“潜在”的,无法直接识别出哪些个体是依从者;估计 LATE 依赖于较强的 IV 假设,这些假设有时难以满足或验证。
LATE 的识别和估计通常依赖于工具变量(IV)方法,其中,处理分配(Z)被用作实际接受处理(D) 的工具变量。
工具变量 (Z)(如随机分配)通过影响个体的处理决策(D),进而影响结果(Y). IV 方法利用(Z) 对(D)的外生影响(不受混淆因素干扰的部分)来识别(D)对 (Y) 的因果效应。
关键 IV 假设 (Imbens & Angrist, 1994):
相关性 (Relevance): 工具变量(Z)必须与内生变量(实际处理)(D) 相关。即
,或者在 LATE 框架下,
。
这个差值 E[D|Z=1] - E[D|Z=0]正是(依从者比例 - 反抗者比例)。
相关性可以通过检验“第一阶段”回归中工具变量的系数是否显著不为零来判断。
独立性/随机性 (Independence/Exogeneity): 工具变量(Z)必须是(条件)随机分配的,即(Z)与潜在结果(Y(0), Y(1))以及潜在依从类型(由 (D(0), D(1)) 决定)无关(可能需要以协变量 (X) 为条件)。在随机对照试验中,该假设通过设计得到满足。在观测研究中,需要论证工具变量的“准随机性”。
排他性限制 (Exclusion Restriction): 工具变量(Z)只能通过影响处理 (D)来影响结果 (Y),不能有其他直接影响(Y)的路径。即Y(d, z) = Y(d)。这意味着分配本身(比如收到鼓励信息这个动作)除了改变个体是否接受处理外,不应直接改变其结果。这是一个关键但通常无法直接检验的假设,需要依赖理论或背景知识进行论证。
单调性 (Monotonicity): 不存在反抗者(Defiers)。即对于所有个体 (i),
。
这意味着工具变量(Z)对所有人要么是推动其接受处理,要么是没影响,但绝不会使其从接受处理变为不接受处理。
在满足上述四个假设的条件下,
LATE 可以通过 Wald 估计量来识别
:
其中,ITT_Y是 (Z) 对结果 (Y) 的意向性处理效应,ITT_D是 (Z) 对实际处理 (D) 的意向性处理效应(即依从率,在没有反抗者的情况下)。
LATE 等于结果的 ITT 除以处理接受度的 ITT
。
2SLS 是估计 IV 模型(包括 LATE)的常用方法。
第一阶段: 将内生处理变量(D)对工具变量(Z)和所有外生协变量 (X)进行回归:
得到 (D) 的预测值
。
这一步检验了相关性假设(
的显著性)并分离出 (D) 中由 (Z) 外生驱动的部分。
第二阶段: 将结果变量(Y)对预测出的处理变量
和外生协变量(X)进行回归:
。
系数
就是 LATE 的 2SLS 估计值。
在Stata中的命令是
ivregress 2sls y x (d = z)
或
ivreg2
。其中
y
是结果,
x
是外生协变量,
d
是实际处理(内生),
z
是工具变量(处理分配)。
查看第一阶段回归结果(可用
first
选项显示)的 F 统计量。通常建议 F 值大于 10 以避免弱工具变量问题。
在R中主要包和函数:
AER
包中的
ivreg()
函数:
ivreg(y ~ d + x | z + x, data=...)
.
|
左边是第二阶段模型结构,右边是第一阶段的工具变量和外生协变量。
summary(iv_model, diagnostics=TRUE)
会报告包括 F 统计量在内的诊断信息。
首先要明确指出使用的工具变量是什么,并详细论证其满足 IV 假设(尤其是排他性限制)的理由。
必须报告第一阶段的结果,包括工具变量对处理接受度的影响大小(系数)和统计显著性(如 F 统计量),以证明相关性并评估弱工具变量风险。
LATE 解释——将估计出的系数解释为依从者的平均因果效应,即那些因为工具变量状态改变而改变了自身处理状态的个体的平均效应。
同时要承认IV估计存在局限性,因此需要讨论潜在的假设违规(如排他性限制不成立、存在反抗者)及其可能的影响。承认 LATE 的局部性,并讨论其外部效度(能否推广到依从者之外的人群)。
如果可能,尝试描述依从者群体的特征(与总是接受者、从不接受者相比)一些 Stata/R 包(如 Stata 的
cmp
或 R 的
ivdesc
)可以帮助分析依从者特征。
LATE 与异质性的关系是啥?LATE 本身虽然是一个局部效应,但 IV 框架迫使我们思考工具变量如何影响行为(第一阶段)以及该行为如何影响结果(缩放后的 ITT)。这个结构是理解更高级异质性模型(如边际处理效应 MTE)的基础,MTE 明确地根据个体接受处理的倾向性来建模异质性。
LATE 可以看作是在工具变量影响下的那部分未观测抵抗力范围内的 MTE 的平均值。
因此,理解 LATE 是通往更丰富的 MTE 框架的桥梁,后者旨在更全面地描绘异质性。
通过 IV 识别 LATE 需要比识别 ITT 更强的假设(排他性、单调性)。此外,LATE 估计的精度(标准误大小)高度依赖于工具变量的强度(第一阶段 ITT_D的大小)。弱工具变量ITT_D接近零会导致 LATE 估计量非常不稳定(标准误巨大)且可能存在严重偏误。
ITT与LATE估计之间存在trade-off:ITT 在随机对照试验中稳健可识别,但估计的是分配效应;LATE 估计的是依从者的处理接受效应,但依赖更强的假设和强有力的工具变量。
3️⃣进阶到理解选择与异质性,边际处理效应 (MTE)
边际处理效应 (marginal treatment effect, MTE) 提供了一个更深入理解处理效应异质性与个体选择行为之间关联的框架,尤其是在存在内生性(如自我选择参与处理)和需要工具变量的情况下。