专栏名称: 经管之家
经管之家官微,每个经济、管理、金融、统计的学习和从业者,都应该有的帐号。经管之家(论坛),是国内成立十年的大型经济、金融、管理、计量统计社区,十年磨一剑,我们共同的家园!我们提供“经管爱问”答疑微服务,以及相关数据分析及金融培训课程。
目录
相关文章推荐
51好读  ›  专栏  ›  经管之家

十分钟视频,手把手教你用Python撒情人节狗粮的正确姿势

经管之家  · 公众号  · 财经  · 2017-02-14 09:29

正文

请到「今天看啥」查看全文


"utf8" )words_df = words_df[ ~ words_df . segment . isin(stopwords . stopword)]

4.统计词频

情侣对话日常高频词


下面进入到词云的关键一步了:词频统计。我们需要统计有效词集中每个词的出现次数,然后按照次数从多到少进行排序。其中统计使用groupby函数,排序使用sort函数。


代码如下:

In [19]:

words_stat=words_df.groupby(by=['segment'])['segment'].agg({"计数":numpy.size})words_stat=words_stat.reset_index().sort(columns="计数",ascending=False)words_stat  #打印统计结果

/opt/ds/lib/python2.7/site-packages/ipykernel/__main__.py:2: FutureWarning: sort(columns=....) is deprecated, use sort_values(by=.....)  from ipykernel import kernelapp as app

Out[19]:


segment 计数
180 紫霞 80
193 至尊宝 52
112 悟空 18
140 月光宝盒 7
66 嘻嘻 6
11 上天 6
87 安排 5
184 老婆 4
60 告诉 4
173 真的 4
84 姻缘 3
85 娘子 3
21 交代 3
88 宝剑 3
89 宝盒 3
175 知不知道 3
15 不行 3
14 不用 3
98 干什么 3
177 神仙 3
137






请到「今天看啥」查看全文