正文
"utf8"
)words_df
=
words_df[
~
words_df
.
segment
.
isin(stopwords
.
stopword)]
4.统计词频
情侣对话日常高频词
下面进入到词云的关键一步了:词频统计。我们需要统计有效词集中每个词的出现次数,然后按照次数从多到少进行排序。其中统计使用groupby函数,排序使用sort函数。
代码如下:
In [19]:
words_stat=words_df.groupby(by=['segment'])['segment'].agg({"计数":numpy.size})words_stat=words_stat.reset_index().sort(columns="计数",ascending=False)words_stat #打印统计结果
/opt/ds/lib/python2.7/site-packages/ipykernel/__main__.py:2: FutureWarning: sort(columns=....) is deprecated, use sort_values(by=.....)
from ipykernel import kernelapp as app
Out[19]:
|
segment
|
计数
|
180
|
紫霞
|
80
|
193
|
至尊宝
|
52
|
112
|
悟空
|
18
|
140
|
月光宝盒
|
7
|
66
|
嘻嘻
|
6
|
11
|
上天
|
6
|
87
|
安排
|
5
|
184
|
老婆
|
4
|
60
|
告诉
|
4
|
173
|
真的
|
4
|
84
|
姻缘
|
3
|
85
|
娘子
|
3
|
21
|
交代
|
3
|
88
|
宝剑
|
3
|
89
|
宝盒
|
3
|
175
|
知不知道
|
3
|
15
|
不行
|
3
|
14
|
不用
|
3
|
98
|
干什么
|
3
|
177
|
神仙
|
3
|
137
|