专栏名称: 计量经济圈
记录一个我们生活在其中的时代社会,囊括的主题如下:经济、社会、世界和计量工具。
目录
相关文章推荐
任博宏觀論道  ·  信托业的至暗时刻仍在延续 ·  2 天前  
21世纪经济报道  ·  招聘41岁北大毕业生当抄表工,燃气公司通报 ·  2 天前  
金融街廿五  ·  【金研•深度】信用债:5月信用利差全线收窄 ·  2 天前  
金融街廿五  ·  【金研•深度】信用债:5月信用利差全线收窄 ·  2 天前  
51好读  ›  专栏  ›  计量经济圈

Stata19新功能独家揭秘, ML,CS等全面升级, 附详细教程和案例助轻松上手, 绝对独一份指南...

计量经济圈  · 公众号  · 财经  · 2025-04-09 23:55

主要观点总结

Stata 19发布了一系列新功能,包括机器学习集成H2O平台、增强的贝叶斯分析、因果推断的进步、改进的数据管理能力、有限混合模型的新特性、一般统计方法的更新、更强大的图形功能、用户界面和工作流程的优化、工具变量分析的进展、面板数据建模的增强、生存分析的更新等。这些更新扩展了Stata的分析能力,使其适应数据科学日益增长的重要性,提供了从传统的统计推断到现代的计算预测的全面工具。

关键观点总结

关键观点1: 机器学习集成H2O平台

Stata 19通过集成H2O平台,实现了高性能可解释性机器学习,利用决策树算法进行分类或回归任务。

关键观点2: 增强的贝叶斯分析

Stata 19引入新的贝叶斯变量选择命令bayesselect,以及贝叶斯自举法和重复权重功能,提高了贝叶斯统计建模的能力。

关键观点3: 因果推断的进步

Stata 19推出cate命令用于估计条件平均处理效应,并改进了teffects aipw、didregress和xtdidregress命令,提供了更可靠的推断。

关键观点4: 改进的数据管理能力

Stata 19提供了多数据集修改、reshape命令的改进、list命令的增强,提高了数据处理效率。

关键观点5: 有限混合模型的新特性

Stata 19引入lcstats命令,用于比较潜在类别模型,简化模型选择过程。

关键观点6: 一般统计方法论的更新

Stata 19改进了高维固定效应、控制函数模型、对弱工具变量稳健的推断,并增强了ANOVA和列联表功能。

关键观点7: 增强的图形功能

Stata 19引入新的双向图类型,并增强了条形图、点图、箱线图的分组和颜色变量功能。

关键观点8: 界面和工作流程改进

Stata 19对Do-file编辑器进行了多项增强,并改进了标题栏中的工作框架。

关键观点9: 工具变量分析的进展

Stata 19引入基于工具变量的SVAR模型和工具变量局部投影IRF,以应对内生性和动态因果效应的估计。

关键观点10: 面板数据建模增强

Stata 19引入了xtvar命令,用于拟合面板数据VAR模型,增强了面板数据分析的能力。


正文

请到「今天看啥」查看全文


rwgen 命令可以使用重抽样方法或狄利克雷分布来生成标准的重复权重和贝叶斯自举权重,为学者提供了灵活性 。此外, bootstrap 前缀命令新增了 fweights() iweights() 选项,允许学者使用自定义的频率权重或重要性权重进行自举重复 。
例如,要使用狄利克雷分布生成贝叶斯自举权重,可以使用 rwgen bayes 命令:
rwgen bayes, nreps(1000) prefix(bb_)
这将生成 1000 组以 bb_ 为前缀的贝叶斯自举权重。
R 语言中也有实现贝叶斯自举法的方法,例如使用 bayesboot 包。Stata 19 中贝叶斯自举法的引入,为学者在进行不确定性分析时提供了更多的选择,尤其在小样本或需要更稳健估计的情况下。

2.3 贝叶斯分位数回归

Stata 19 新增了贝叶斯分位数回归的功能 。分位数回归是一种用于估计响应变量的条件分位数与一组预测变量之间关系的回归分析方法。与传统的最小二乘回归关注响应变量的条件均值不同,分位数回归可以更全面地描述响应变量的整个条件分布,并且对异常值具有更强的稳健性。
在贝叶斯框架下进行分位数回归,可以自然地引入先验信息并获得分位数回归系数的后验分布。Stata 19 中还提到了贝叶斯非对称拉普拉斯模型(bayesian asymmetric laplace model),这是一种常用于贝叶斯分位数回归的似然函数 。
R 语言中, quantreg 包提供了全面的分位数回归分析工具,包括贝叶斯方法。Stata 19 中贝叶斯分位数回归的加入,扩展了其在稳健回归和异质效应分析方面的能力。

2.4 贝叶斯分析的新先验分布

Stata 19 的 bayesmh 命令和 bayes 前缀现在支持半柯西(half-cauchy)先验和瑞利(Rayleigh)先验 。半柯西先验是一种重尾分布,适用于建模倾向于取较大值的非负参数,例如方差和标准差 。瑞利先验与卡方分布和指数分布相关,可以用于建模具有偏斜分布的非负参数,常用于物理学和工程学领域 。这些新的先验分布为学者在进行贝叶斯建模时提供了更多的灵活性,能够根据参数的特性选择更合适的先验分布。

2.5 具有拉普拉斯先验的正态线性模型的 Gibbs 抽样

bayesmh 命令现在支持对具有单变量正态似然和回归系数拉普拉斯先验,或者具有正态先验均值参数和拉普拉斯超先验的正态线性模型使用 Gibbs 抽样 。这通过 block() 选项的 gibbs 子选项实现。Gibbs 抽样是一种马尔可夫链蒙特卡罗(MCMC)算法,适用于某些具有特定结构的贝叶斯模型,通常比一般的 Metropolis-Hastings 算法更有效。

2.6 具有学者定义评估值的 bayesmh 的新功能

Stata 19 为使用学者定义评估值的 bayesmh 命令引入了多项新功能 。现在, bayesmh 可以通过使用 block() 选项的 reffects 子选项,在评估值中高效地估计随机效应参数 。 evaluator() llevaluator() 选项支持 reparameters() 子选项,允许将随机效应参数作为临时变量传递给评估值 。此外, bayesmh 现在支持在评估值中进行预测。学者可以在后验或似然评估值中实现预测,并使用 bayespredict 后验估计命令 。
具体地, evaluator() llevaluator() 选项支持 predict 子选项,表明评估值包含生成结果随机样本的代码.最后, bayesmh 中的评估值现在需要计算整个观测样本的对数似然值,并以向量形式返回,而不是标量形式的整体对数似然值 。这些改进使得学者能够更灵活地定义和估计复杂的贝叶斯模型。
3. 因果推断的进步
Stata 19 在因果推断领域引入了强大的新工具和改进,进一步提升了学者分析处理效应和建立因果关系的能力。

3.1 条件平均处理效应 (CATE)

Stata 19 推出了 cate 命令,专门用于估计条件平均处理效应(conditional average treatment effects, CATEs),包括个体平均处理效应(individualized average treatment effects, IATEs)、组平均处理效应(group average treatment effects, GATEs)和排序组平均处理效应(sorted group average treatment effects, GATESs) 。
条件平均处理效应旨在理解处理效应如何随着个体特征的变化而变化,这对于研究处理效应的异质性至关重要 。 cate 命令提供了两种 Neyman 正交估计值(部分化和增强逆概率加权)以应对机器学习模型可能出现的误差 。此外,该命令还采用交叉拟合技术来避免结果模型和处理分配模型的过拟合 。学者可以使用广义随机森林或参数回归来拟合 CATE,并且结果模型和处理模型支持 Lasso、广义随机森林或参数回归 。
cate 命令的基本语法如下:
cate estimator (outcome_var covariates) (treatment_var) [ , options ]
其中 estimator 可以是 po (部分化)或 aipw (增强逆概率加权)。例如,要使用 AIPW 估计值,以 y 为结果变量, treat 为处理变量, x1 x5 group1 为协变量,可以使用以下命令:
cate aipw (y x1-x5 i.group1) (treat)
cate 命令还提供了 group() 选项来计算由指定变量定义的每个组的 GATE,以及 controls() 选项来指定结果模型和处理模型的控制变量 。 categraph 命令可以用于可视化 CATE 的结果,例如使用 histogram 子命令绘制预测 IATE 的直方图,或使用 iateplot 子命令检查 IATE 函数如何随感兴趣变量的水平变化 。
在 R 语言中,有多个包可以用于估计 CATE,例如 econml 包提供了多种 CATE 学习器, grf 包实现了基于随机森林的非参数异质处理效应估计, hdcate 包专注于高维数据的 CATE 估计,而 DoubleML 包也提供了估计 CATE 的框架 。 cate 命令的引入使得 Stata 19 在因果推断领域更具竞争力,能够帮助研究人员深入理解处理效应的异质性,这对于制定更有效的干预措施和政策评估至关重要.

3.2 对 teffects aipw , didregress xtdidregress 的改进

Stata 19 对现有的因果推断命令也进行了改进。指出, teffects aipw 命令现在支持估计处理组的平均处理效应(average treatment effect on the treated, ATET),并且可以根据抽样权重调整结果,这使得该命令在分析具有复杂抽样设计的处理效应时更加灵活。还提到,用于双重差分估计的 didregress xtdidregress 命令采用了改进的算法,通过 wild bootstrap 方法计算置信区间,从而提供更可靠的推断,尤其是在样本量较小或存在异方差的情况下。

4. 改进的数据管理能力

Stata 19 在数据管理方面引入了多项增强功能,旨在提高学者处理和准备数据的效率和灵活性。

4.1 多数据集:修改一组框架

Stata 19 提供了同时修改一组框架的新功能 。框架是 Stata 16 引入的一种管理内存中多个数据集的机制。现在,学者可以对一组选定的框架执行相同的操作,例如变量的创建、修改或删除,从而简化了涉及多个相关数据集的工作流程,如面板数据分析或模拟研究。

4.2 reshape 命令

reshape 命令用于在宽格式和长格式之间转换数据。在 Stata 19 中, reshape 命令的默认行为已更改为优先考虑速度而不是内存使用 。这意味着在处理大型数据集时,转换速度可能会更快,但可能会消耗更多的内存。学者在处理内存受限的环境时需要注意这一变化。

4.3 list 命令增强

list 命令用于显示数据集中的数据。Stata 19 为 list 命令增加了三个新的选项,以提供更灵活的输出控制。指出, sepbyexp(exp) 选项可以在表达式 exp 的值发生变化时绘制分隔线,这有助于在查看排序数据时区分不同的组。提到, footer 选项可以在输出底部显示变量名,方便学者参考。介绍, relative 选项在列出观测值的子集时,可以显示相对于子集起始位置的观测值编号,这在检查数据片段时非常有用。
R 语言中, dplyr 包提供了强大的数据操作功能,包括选择、过滤和排列数据,以及使用管道操作符 %>% 链接多个操作 。这些功能可以实现与 Stata 中数据管理命令类似的操作,并提供更丰富的工具集。

5. 有限混合模型的新特性

Stata 19 为有限混合模型引入了一项重要的新特性。

5.1 潜在类别模型比较统计

Stata 19 引入了 lcstats 后验估计命令,用于比较使用 fmm gsem 命令拟合的潜在类别模型 。在潜在类别分析(latent class analysis, LCA)中,确定最佳的潜在类别数量是一个基本问题。 lcstats 命令可以计算 Lo-Mendell-Rubin (LMR) 调整的似然比检验和 Vuong-Lo-Mendell-Rubin (VLMR) 似然比检验,这些检验用于比较具有不同类别数量的模型拟合优度 。
此外,该命令还报告信息准则,包括 AIC(赤池信息准则)、BIC(贝叶斯信息准则)、AICc(修正的 AIC)和 CAIC(一致的 AIC),这些准则可以帮助学者在模型拟合和模型复杂性之间进行权衡 。 lcstats 命令的结果可以方便地使用 collect 套件命令进行自定义和导出为出版质量的表格 。
例如,假设已经拟合了名为 lc1 lc2 lc3 的分别具有 1、2 和 3 个潜在类别的模型,可以使用以下命令比较这些模型:
lcstats lc1 lc2 lc3, allic
其中 allic 选项要求报告所有信息准则。
R 语言中,可以使用 poLCA 包进行潜在类别分析,并通过比较不同模型的 AIC 和 BIC 等信息准则来选择最佳模型。 lcstats 命令的引入简化了 Stata 中潜在类别模型选择的关键步骤,为研究人员提供了更便捷的工具来做出明智的决策 。

6. 一般统计方法论更新

Stata 19 在一般统计方法论方面进行了多项重要的更新,提升了学者进行各种统计分析的效率和准确性。

6.1 高维固定效应 (HDFE)

Stata 19 显著增强了处理高维固定效应的能力,通过改进 areg xtreg, fe ivregress 2sls 命令中的 absorb() 选项,现在可以吸收多个高维类别变量 。在高维数据分析中,包含大量类别变量作为控制变量是很常见的需求。传统的方法是为每个类别创建一个虚拟变量,但这会导致模型中参数数量急剧增加,造成计算上的挑战 。
absorb() 选项通过一种投影算法,可以在不显示包含所有虚拟变量的情况下估计模型参数,从而显著提高计算速度 。与之前只能吸收一个变量不同,Stata 19 现在允许在 absorb() 选项中指定多个类别变量。
例如,要在一个关于贸易额( trade )对进口关税( imports )影响的线性回归模型中,控制年份( year )、国家( country )和行业( industry )这三个高维类别变量的固定效应,可以使用以下命令:
areg trade imports, absorb(year country industry)
指出,与传统方法相比,使用 absorb() 选项可以节省大量的计算时间。Stata 19 还为 absorb() 选项提供了 Halperin 和 Cimmino 两种交替投影算法供学者选择 。此外, areg xtreg, fe 命令新增了 dfabsorb 选项,用于调整被吸收变量之间存在两两共线性时的自由度 。
R 语言中, lfe 包和 fixest 包提供了类似的功能来处理高维固定效应。包 lfe 使用交替投影法估计具有多个组固定效应的线性模型,而包 fixest 也提供了快速估计带有多个固定效应模型的工具。Stata 19 中 absorb() 功能的增强,使得处理高维固定效应变得更加高效和便捷。
6.2 控制函数线性模型和 Probit 模型
Stata 19 引入了 cfregress cfprobit 命令,用于拟合控制函数模型,以解决内生性问题 。控制函数方法为传统的工具变量(instrumental variables, IV)方法提供了一种灵活的替代方案,用于估计具有内生解释变量的模型中的因果关系 。
该方法首先对所有内生变量拟合第一阶段模型,然后将得到的残差作为控制函数包含在主要的结果模型中,以解释内生性。控制函数方法在传统 IV 方法难以适应所需的模型特征时特别有用,例如灵活处理交互的内生变量或建模内生的二元、分数和计数变量 。 cfregress cfprobit 命令允许学者灵活地交互和建模内生变量,并提供考虑了估计控制函数影响的标准误 。在拟合模型后,学者可以方便地进行内生性检验。
例如,要估计房价( hsngval )对租金( rent )的影响,并怀疑 hsngval 是内生的,可以使用家庭收入( faminc )和地区( region )作为工具变量,拟合控制函数线性模型:
cfregress rent pcturban (hsngval = faminc i.region)
指出,控制函数模型将第一阶段回归的残差(控制函数)作为主回归中的一个额外回归量。Stata 的控制函数回归命令允许学者为内生的二元、分数或计数变量指定非线性的第一阶段模型 。 cfprobit 命令以类似的方式拟合控制函数模型,但主要方程的模型是 Probit 模型。这两个命令都支持稳健标准误、聚类稳健标准误以及异方差和自相关一致的标准误 。

6.3 对弱工具变量稳健的推断

Stata 19 在工具变量回归后引入了新的 estat weakrobust 后验估计命令,用于在存在弱工具变量的情况下进行可靠的推断 。当工具变量与内生回归变量的相关性较弱时,即使在相对较大的样本中,传统的工具变量方法也可能产生不可靠的推断。
指出, estat weakrobust 命令可以对内生回归变量执行 Anderson-Rubin 检验或条件似然比(conditional likelihood-ratio, CLR)检验。当只有一个内生回归变量时,该命令还可以构建相关的弱工具变量稳健的置信区间 。这些检验和置信区间对弱工具变量具有完全的稳健性,并且支持各种方差-协方差估计值(如稳健、聚类稳健和 HAC) 。
例如,在对房价( hsngval )和租金( rent )关系的工具变量回归后,可以使用以下命令执行对 hsngval 系数的弱工具变量稳健检验:
estat weakrobust
如果模型是过度识别的(即工具变量的数量多于内生回归变量的数量), estat weakrobust 默认报告 CLR 检验 。学者还可以通过指定 ci 选项请求稳健的置信区间 。

6.4 更强大的 ANOVA 和列联表

Stata 19 改进了 ANOVA 和列联表的表格生成功能 。 table 命令现在允许学者添加标题、注释并直接导出表格到 Excel、Word 和 LaTeX 等多种格式 。 anova oneway 命令现在将其 ANOVA 表格存储在一个矩阵中,并增强了与 collect 命令的集成,使得学者可以更方便地构建、自定义和发布 ANOVA 表格 。此外,现在可以隐藏表格标题中的因子变量水平,并且列联表也支持 collect 功能 。这些改进使得在 Stata 中创建和管理统计表格变得更加容易。

7. 增强的图形功能

Stata 19 在图形功能方面进行了显著的扩展,引入了新的图表类型并增强了现有图表的功能,为学者提供了更强大的数据可视化工具。

7.1 条形图置信区间、热力图等

Stata 19 引入了新的双向图类型 heatmap ,用于创建热力图 。热 图通过颜色编码的矩形网格显示变量 z 在变量 y x 值上的分布情况,适用于可视化如温度、犯罪率等数值变量的水平。 graph bar graph dot 命令新增了 meanci 统计量,用于绘制均值及其置信区间 。
此外,还引入了 rpcap rpspike 两种新的双向图类型,用于绘制值和范围,例如股票的最高价、最低价和开盘价 。 graph bar graph dot graph box 命令新增了 groupyvars 选项,允许学者基于 y 变量而不是 over() 变量的类别对条形、点和箱线进行分组,并改进了对类别轴刻度和标签的控制 。






请到「今天看啥」查看全文