专栏名称: 爬虫俱乐部
Stata技术控,编程技术咨询,数据讨论与分享,编程和实证培训。
目录
相关文章推荐
直播海南  ·  偷窃两根小米辣被拘?真相大反转! ·  2 天前  
直播海南  ·  一隧道发生车祸致1死1伤,警方通报 ·  2 天前  
直播海南  ·  网传“8岁女孩遭男孩长期霸凌”,官方通报 ·  2 天前  
51好读  ›  专栏  ›  爬虫俱乐部

测试公司年报负面情绪的新词库与财务指标的关系

爬虫俱乐部  · 公众号  ·  · 2018-06-01 16:39

正文

请到「今天看啥」查看全文


摘要

使用财报中否定词的比例来衡量其语调是当前金融领域进行文本分析的一种通行做法,本文通过对1994年-2008年所有上市公司10-K和10-K05文件的再筛查,整合成了六个针对于财报文本的新词库。该词库规避了以往业界通常使用的Harvard-IV-4 TagNeg(H4N)词库的诸多弊端,相比于H4N词库,该词库在公告发布后的额外收益、交易量、收益波动性的联系上取得更好的结果。另外,本文证实了tf.idf词频加权方案可以减轻高频单词的影响,并使出现频率较低的单词产生更大的影响。我们发现,这样的方案可以降低由词汇错误分类引起的噪音且增加了H4N词库和本文的新词库对公司各项财务指标的相关性。

研究背景

越来越多的财务和会计研究使用文本分析来分析公司的10-K报告、报纸、新闻稿和投资者留言板的语气和情绪(Examples are Antweiler andFrank (2004), Tetlock (2007), Engelberg (2008), Li (2008), and Tetlock, Saar-Tsechansky, and Macskassy (2008).)。迄今为止的结果表明,文件的负面词频率可以有效地衡量语气,负面词频率与相应的财务指标显著相关。如Tetlock(2007)的工作将华尔街日报的热门专栏“与市场并驾齐驱”与随后的股票回报率和交易量联系起来。Tetlock发现,头一天专栏中有较高水平悲观词频率的公司更容易在第二天出现较低的收益。

目前许多研究工作者借用哈佛社会心理学词表中的否定词表来衡量文本的语调,但是其有两点主要的弊端:首先,在社会心理学领域认定的有否定意义的词汇在金融领域未必有否定意义,事实上H4N词库有近四分之三的词汇在金融语境里都不具有否定意义,如tax,vice,其次,一些特殊词汇可能高频出现于一些行业,导致这些词汇识别出的效应并非来自财报语调,而是行业效应。

数据

对于新词库的生成,本文获取从1994-2008年所有上市公司的10-Ks和10-K405文件,并筛选出其中出现频率大于5%的词汇,经过人工比对整理出六个词库,分别用于衡量消极语气、积极语气、不确定语气、法律相关语气、强势语气与弱势语气(以下简称Fin-Neg、Fin-Pos、Fin-Unc、Fin-Lit、MW-Strong、MW-Weak)。

本文的财报数据同样采集于1994-2008年所有上市公司的10-Ks和10-K405文件,并指定保留符合CRSP PERMNO匹配,财报公布日期前股价大于3美元,财报超过2000词的样本一共50115份样本。同样我们从财报中提取出单独的管理层陈述部分,要求陈述部分大于250词,一共有37287份管理层陈述文件。

为了评估词表与公司的经济相关性,我们整理了两份特殊财报样本,一份为所有该年被指控犯有会计欺诈行为的公司财报,另一份为所有该年被披露至少有一个内部控制上有重大风险的公司财报。研究试图探究具备如上特殊情形的公司在财报语调上是否存在异常。

本文主要的被解释变量为10K文件发布后三天内的超额收益(以下简称超额收益),该指标指公司在财报发布后4天内股票回报减去crsp价值加权的市场指数的回报率。控制变量包括公司规模、账面市值比、股票换手率、Pre_FFAlpha、机构持股比例以及关于是否在纳斯达克上市的虚拟变量。

本文使用词袋模型来处理六个语气词库,加权方案使用tf.idf模型,即给每一个在文中出现的词汇赋予相应权重,权重计算公式为:







请到「今天看啥」查看全文