专栏名称: 国际新闻界
新闻传播学科唯一的国家社科基金首批资助期刊、全国中文核心期刊、全国新闻核心期刊、中文社会科学引文索引(CSSCI)来源期刊。
目录
相关文章推荐
实验万事屋  ·  这山东大学齐鲁医院博士生的40.8分SCI文 ... ·  20 小时前  
环球科学科研圈  ·  特朗普终结NASA?2026年美国政府预算拟 ... ·  2 天前  
51好读  ›  专栏  ›  国际新闻界

情感分析在社会化媒体效果研究中的应用 ——基于分类序列规则的微博文本情绪分析

国际新闻界  · 公众号  · 科研  · 2017-06-17 10:38

正文

请到「今天看啥」查看全文


情感分析(sentiment analysis)又称意见挖掘(opinion mining),是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,包括情感信息抽取、情感 信息分类、情感信息的检索与归纳。


而情绪分析(emotion analysis),作为一个常与情感分析(sentiment analysis) 混淆和误用的概念,学界对此目前并没有一个成熟的定义。但是和情感分析相比, 情绪分析的结论并不只局限于积极、消极或中性的简单划分,而是致力于在正负极两个笼统的情感范畴内,继续识别出如惊讶、恐惧、悲伤、愤怒、喜悦等更加具体的情绪类别。换言之,同一个情感类型可能会包含或对应着不同的情绪分类,而针对不同的情绪类别,作为传播主体而言,其所要采取的应 对举措可能也会存在较大差异。


文献综述

早在2000年,情感分析已经成为自然语言处理领域中最为活跃的研究范畴之 一。之前的研究主要集中在评论(Liu & Seneff,2009)、论坛讨论(Shi et al., 2009)和博 客(Chesley, Vincent, Xu & Srihari,2006)上。


随着社交媒体的发展,已有大量研究开始着手于Twitter和中文微博的情感分析 问题。典型的研究如基于Twitter中的电影评论建立的对电影票房的预测模型(Asur & Huberman, 2010),以及政务部门通过分析社会化媒体平台上的网络舆情情感趋势作 为政治决策依据等。


目前,国内将情感分析方法应用于社交媒体传播的相关研究仍然主要集中在计算机科学领域。


在本文中,我们除了关注一般意义上的情感分析,更将重点放在情感分析中的 情绪分析之上,并尝试引入一种利用机器学习方法中的分类序列规则来进行文档级情绪分类的方法。分类序列规则(Liu, 2007)通常被用作划分文本文档中相似的句子 (Jindal & Liu, 2006)以及观点特征提取 (Hu & Liu, 2006)。


基于分类序列规则的微博文本情绪分类方法

在本文中,我们将以新浪微博为例,重点介绍一种专注于中文微博文本的情绪 分类方法。该方法旨在将每一条中文微博文本划分到多种情绪类别之一(即“生 气”、“厌恶”、“恐惧”、“高兴”、“喜欢”、“悲伤”、“惊讶”和“无情 绪”)。


方法实施的重点是文档级情感分析任务,这比句子级情感分析更具挑战性。已 有的基于词典或机器学习的方法由于总是把一条微博文本看作是一个词包或者一个句子包,并没有考虑到微博中的文本顺序和话语结构,因此通常难以得出满意的结论。

为了更好地利用文本语序和话语结构信息来对微博文本进行情绪分类。这里提 出利用分类序列规则来为有监督的情绪分类提取新的有效特征。首先使用传统的基 于词典和基于机器学习的方法,为一段微博文本中的每个句子获得两个潜在的情绪。


(一)基本方法

本节将介绍使用基本的基于词典的方法和基于机器学期的方法来进行文档级和句子级的情绪分类。


1.基于词典的方法

基于词典的方法非常依赖于情绪词典的质量。在本次实验中,我们从三方面资 源入手建构了一个中文情绪词典:1)在本文方法中,我们采用了大连理工大学信息检索研究室的情绪词典,其中包含7种情绪类别,在实验中去掉了一些对语料库 不适用的情绪词汇;2)收集了一些对情绪分类有用的常见俚语;3)从微博网页中 搜集到一些表情符号来扩充情绪词典。表2显示了在本文情绪词典中每个情绪类别下的单词总数。







请到「今天看啥」查看全文