专栏名称: 经管之家

经管之家官微，每个经济、管理、金融、统计的学习和从业者，都应该有的帐号。经管之家（论坛），是国内成立十年的大型经济、金融、管理、计量统计社区，十年磨一剑，我们共同的家园！我们提供“经管爱问”答疑微服务，以及相关数据分析及金融培训课程。

十分钟视频,手把手教你用Python撒情人节狗粮的正确姿势

经管之家 · 公众号 · 财经 · 2017-02-14 09:29

正文

请到「今天看啥」查看全文

"utf8" )words_df = words_df[ ~ words_df . segment . isin(stopwords . stopword)]

4.统计词频

情侣对话日常高频词

下面进入到词云的关键一步了：词频统计。我们需要统计有效词集中每个词的出现次数，然后按照次数从多到少进行排序。其中统计使用groupby函数，排序使用sort函数。

代码如下：

In [19]:

words_stat=words_df.groupby(by=['segment'])['segment'].agg({"计数":numpy.size})words_stat=words_stat.reset_index().sort(columns="计数",ascending=False)words_stat  #打印统计结果

/opt/ds/lib/python2.7/site-packages/ipykernel/__main__.py:2: FutureWarning: sort(columns=....) is deprecated, use sort_values(by=.....)
  from ipykernel import kernelapp as app

Out[19]:

	segment	计数
180	紫霞	80
193	至尊宝	52
112	悟空	18
140	月光宝盒	7
66	嘻嘻	6
11	上天	6
87	安排	5
184	老婆	4
60	告诉	4
173	真的	4
84	姻缘	3
85	娘子	3
21	交代	3
88	宝剑	3
89	宝盒	3
175	知不知道	3
15	不行	3
14	不用	3
98	干什么	3
177	神仙	3
137

请到「今天看啥」查看全文

推荐文章

雷峰网 · 三星斥资 80 亿美元收购哈曼，会是拯救 Note 7 颓势的一张王牌吗？

8 年前

雷峰网 · 三星斥资 80 亿美元收购哈曼，会是拯救 Note 7 颓势的一张王牌吗？

8 年前

洞见 · 别人不把你当回事，都是从这件事情开始的

8 年前

微交互 · 韩国互联网设计风向标『Naver Design』厉害在哪里

8 年前

有风来Lite · 能把故宫讲成单口相声的只有他故宫博物院院长海岛开讲

8 年前