正文
本文所用数据集来自于sougou实验室数据,具体可至如下链接下载:
http://download.labs.sogou.com/dl/sogoulabdown/SogouC.mini.20061102.tar.gz
本文对该数据集做了整合,将各个主题下的新闻汇总到一张csv表格中,数据格式如下图所示:
具体数据可至文章后面的链接。
#加载所需R包
library(tm)
library(Rwordseg)
library(wordcloud)
library(tmcn)
#读取数据
mydata str(mydata)
接下来需要对新闻内容进行分词,在分词之前需要导入一些自定义字典,目的是提高切词的准确性。由于文本中涉及到军事、医疗、财经、体育等方面的内容,故需要将搜狗字典插入到本次分析的字典集中。
#添加自定义字典
installDict(dictpath = 'G:\\dict\\财经金融词汇大全【官方推荐】.scel',
dictname = 'Caijing', dicttype = 'scel')
installDict(dictpath = 'G:\\dict\\军事词汇大全【官方推荐】.scel',
dictname = 'Junshi', dicttype = 'scel')
installDict(dictpath = 'G:\\dict\\篮球【官方推荐】.scel',
dictname = 'Lanqiu', dicttype = 'scel')
installDict(dictpath = 'G:\\dict\\旅游词汇大全【官方推荐】.scel',
dictname = 'Lvyou', dicttype = 'scel')
installDict(dictpath = 'G:\\dict\\汽车词汇大全【官方推荐】.scel',
dictname = 'Qiche1', dicttype = 'scel')
installDict(dictpath = 'G:\\dict\\汽车频道专用词库.scel',
dictname = 'Qiche2', dicttype = 'scel')
installDict(dictpath = 'G:\\dict\\医学词汇大全【官方推荐】.scel',
dictname = 'Yixue', dicttype = 'scel')
installDict(dictpath = 'G:\\dict\\足球【官方推荐】.scel',
dictname = 'Zuqiu', dicttype = 'scel')
#查看已安装的词典
listDict()
如果需要卸载某些已导入字典的话,可以使用uninstallDict()函数。
分词前将中文中的英文字母统统去掉。