专栏名称: Idata
经管学术自媒体,我们关注统计软件和数据分析。本着简单的初心,陪伴着您百尺竿头,更进一步。
目录
相关文章推荐
最江阴  ·  F4将合体开演唱会 ·  7 小时前  
最江阴  ·  F4将合体开演唱会 ·  7 小时前  
煮娱星球  ·  榜妹热线 ... ·  10 小时前  
YNTV2都市条形码  ·  “领只大象回去睡觉!”小伙酒后扛着“大象”坐 ... ·  12 小时前  
YNTV2都市条形码  ·  “领只大象回去睡觉!”小伙酒后扛着“大象”坐 ... ·  12 小时前  
斑马消费  ·  “银发族”拯救KTV? ·  昨天  
51好读  ›  专栏  ›  Idata

文本就是数据?

Idata  · 公众号  ·  · 2017-09-07 22:00

正文

请到「今天看啥」查看全文



文本数据区别于其他数据,天然的不同就是它本身就是高维数据。假设我们有一个文档数据的样本,每个文档有w个字符,同时每个词来自于使用p个潜在词汇的字典,那么这个文档就拥有了p^w个维度。一个30个单词的Twitter信息样本,仅使用了1000个常用的英文单词,他的维度和这个世界上原子的数量一样多。


这样带来的后果就是,分析文本的统计方法和分析其他领域(如机器学习和计算生物学)的高维数据有紧密的联系。包括lasso回归和其他惩罚值回归分析被用于文本数据里。其他方法,包括主题模型(topic models)和多项式逆回归(multinomial inverse regression)也被用于特定结构的文本分析之中。


在所有的案例当中,分析可以总结为以下三步:


1、把原文本D转为成数组C(包括定义文本、特征选择、N-grams等)

2、使用C来得到V_hat,用来代表未知的结果V。使用到的模型包括文本回归(如惩罚值线性模型、 贝叶斯回归方法、非线性文本回归),广义语言模型(无监督生成模型和监督生成模型),深度学习和word embedding。

3、使用V_hat来做后续的描述或因果分析。应用也很多,包括、作者问题、股价、央行情绪、即时预测、政策不确定性、媒体倾向、市场结构、政治辩论等。


文本提供了关于经济社会非常丰富的信息,现代统计工具也给研究者提供了提取文本信息,并量化进行描述性或者因果分析。可以使用的文本数据和前沿的方法发展非常迅速,作者们预计文本分析会在实证经济学领域会发挥更大的作用。


为了推进对文本分析的认识,我们希望联系更多的朋友进行学习、探讨。探讨的形式是通过研读论文来进行,当然后期希望能replicate部分结果。我们选择了 经济学和金融学 领域10余篇论文,包括:


1、Stephens-Davidowitz, S. (2014). The cost of racial animus on a black candidate: evidence using Google search data. Journal of Public Economics 118, 26–40








请到「今天看啥」查看全文