专栏名称: 香樟经济学术圈
香樟经济学术圈是经济研究平台,于2014年10月9日成立。平台主要为读者推送经典经济学术论文,发布“香樟经济学论坛”、“CEC Workshop"和学术研讨会等相关公告。希望平台能够为发展社会主义市场经济理论贡献微薄之力,感谢您的关注!
目录
相关文章推荐
51好读  ›  专栏  ›  香樟经济学术圈

【香樟推文3538】15% vs. 5%:大语言模型如何三倍提升财报文本对股价的解释力?

香樟经济学术圈  · 公众号  ·  · 2025-05-29 07:30

正文

请到「今天看啥」查看全文



在此基础上,作者进一步划分出模型训练期与样本外预测期:其中2006至2013年间的109687份财报文本用于微调语言模型,2014至2023年间剩余的120218份文本作为样本外检验数据。考虑到部分观测值存在匹配不到财务变量的情况,最终用于实证分析的核心样本为98171份完整的财报公告文本。这一构建过程详见论文的表1,清晰展示了样本从原始公告到最终可用于建模分析的筛选路径,不仅体现了数据处理的严谨性,也保障了研究结果的可重复性与可解释性。值得一提的是,在最终样本中,还有56670个观测值同时拥有同期财报电话会议纪要文本,为后续拓展不同文本类型信息增量的分析提供了条件。

基于上述数据,本文以BERT架构的大型语言模型为核心建模工具,通过监督学习的方式,使模型能够学习财报文本中语言表达与公告窗口内股价异常波动之间的映射关系。与传统基于关键词频率或情感词典的文本分析方法不同,BERT模型能够识别词语在上下文中的语义角色,从而捕捉企业表述中更为复杂的语言结构与潜在信号。为克服模型在单次输入长度方面的技术限制,作者将每篇财报文本划分为多个512词片段,分别输入模型处理,最终对所有片段的预测结果进行加权整合,生成一个单一的、可用于回归分析的变量,即 CAR_LLM_EA ,用以衡量该文本在语义—语境层面所携带的市场相关信息。


本文方法的另一个技术创新在于,作者将BERT模型从常见的文本分类任务扩展为连续变量回归任务,使其直接输出一个反映市场反应程度的数值指标,而非简单地判断“好消息”或“坏消息”。这种设定更符合金融市场的连续性与异质性特征,也为后续衡量模型解释力奠定基础。需要强调的是,本节为后文分析文本信息对市场反应的解释能力提供了坚实基础,并为文本建模在财务会计领域的进一步应用提供了方法论上的拓展空间。


03

研究结果


在构建完可用于样本外预测的财报文本指标之后,本文通过一系列回归分析检验了BERT语言模型提取出的文本变量是否能够有效解释股票在盈余公告窗口内的异常收益。作者采用的核心回归框架以CAR[0,1]为被解释变量,重点考察模型输出的 CAR_LLM_EA 变量是否在跨公司与公司内部层面上具备显著解释力。在控制公司特定因素与财务信息后,结果显示 CAR_LLM_EA 的解释力显著强于现有主流文本分析方法,甚至超过传统的财务“预期差”指标,凸显了语言模型对复杂语境结构的捕捉能力。


具体而言,表4展示了不同模型对公告期异常收益的解释力。结果表明, CAR_LLM_EA 单独使用时便可解释约15%的跨公司异动,以及15%的公司内部变化,远高于此前文献中4%-5%的平均水平。例如,Frankel et al.(2022)使用非LLM方法对财报文本建模,仅能解释4.5%的公告期异常收益,而本研究中的语言模型实现了三倍以上的提升。这一结果说明,大模型对文本上下文的理解能力显著弥补了传统“词袋”模型的结构缺陷,为文本信息在资本市场中的估值功能提供了实证支持。

图1展示了不同信息源与建模方式对异常收益的解释效果。在四类回归设定中,无论是公司间的横截面分析还是公司内部的固定效应分析,基于大语言模型提取的文本变量始终具有最高的解释力,平均达到15%~18%,显著高于传统的财务预期差与词典类文本属性。同时,即便在纳入财务与文本控制变量后, CAR_LLM_EA







请到「今天看啥」查看全文