专栏名称: 挖地兔
金融数据采集与挖掘,开启量化金融的第一扇大门。
目录
相关文章推荐
神经时讯  ·  2025版共识发布:混合性认知障碍临床诊断、 ... ·  5 小时前  
丁香园肿瘤时间  ·  朱梁军教授:攻坚克难,结直肠癌治疗的个体化进程 ·  昨天  
丁香园  ·  亚洲首例猪肾移植患者术后已 103 天 ·  2 天前  
51好读  ›  专栏  ›  挖地兔

新闻联播也可以拿来做数据分析?

挖地兔  · 公众号  ·  · 2018-12-24 00:01

正文

请到「今天看啥」查看全文


, '一边' , '一部' , '一致' , '一窗' , '万亿元' , '亿元' , '一致同意' , '本台记住' , '发生' ,
'上述' , '不仅' , '不再 ' , '下去' , '首次' , '合作' , '发展' , '国家' , '加强' , '共同' , '重要' , '我们' , '你们' , '他们' , '目前' ,
'领导人' , '推进' , '中方' , '坚持' , '支持' , '表示' , '时间' , '协调' , '时间' , '制度' , '工作' , '强调' , '进行' , '推动' , '通过' ,
'北京时间' , '有没有' , '新闻联播' , '本台消息' , '这个' , '那个' , '就是' , '今天' , '明天' , '参加' , '今年' , '明天' ]

#新增关键词
stopwords = [ '一带一路' , '雄安新区' , '区块链' , '数字货币' , '虚拟货币' , '比特币' , '对冲基金' , '自贸区' , '自由贸易区' , '乡村振兴' , '美丽中国' , '共享经济' , '租购同权' , '新零售' ,
'共有产权房' , '楼市调控' , '产权保护' , '互联网金融' , '5G' , '4G' , '国企改革' , '大湾区' , '长江经济带' ]

for word in stopwords:
jieba.add_word(word)

df = pd.read_csv(file, encoding= 'utf8' )
list = []
df = df[df.content.isnull() == False ]

for idx, row in df.iterrows():
data = jieba.cut(row[ 'content' ])
data = dict(Counter(data))

df = pd.DataFrame(list, columns=[ 'date' , 'keyword'





请到「今天看啥」查看全文