专栏名称: 王树义
终身学习者、大学教师。稍微懂一点儿写作、演讲、Python和机器学习。欢迎微信关注并置顶我的公众号“玉树芝兰”(nkwangshuyi)。我已委托“维权骑士”(rightknights.com)为我的文章进行维权行动。
目录
相关文章推荐
百职帮  ·  这个暑假学Python,开学直接惊艳所有人!! ·  16 小时前  
百职帮  ·  这个暑假学Python,开学直接惊艳所有人!! ·  16 小时前  
Python开发者  ·  今年IT就业市场的风向已经很明显了。。。 ·  昨天  
Python开发者  ·  GitHub 第 10 ... ·  昨天  
Python爱好者社区  ·  python必备手册 ·  3 天前  
Python爱好者社区  ·  挑行李回家的高考女生火了!热心网友愿资助,多 ... ·  2 天前  
51好读  ›  专栏  ›  王树义

如何用Python提取中文关键词?

王树义  · 简书  · Python  · 2017-12-07 22:18

正文

请到「今天看啥」查看全文


2017-12-7_21-24-56_snapshots-01.jpg

除了README.md这个github项目默认说明文件外,目录下还有两个文件,分别是数据文件sample.txt和程序源代码文件demo-extract-keyword.ipynb。

结巴分词

我们使用的关键词提取工具为 结巴分词

之前在《 如何用Python做中文分词? 》一文中,我们曾经使用过该工具为中文语句做分词。这次我们使用的,是它的另一项功能,即关键词提取。

请进入终端,使用cd命令进入解压后的文件夹demo-keyword-extraction-master,输入以下命令:

pip install jieba

好了,软件包工具也已经准备就绪。下面我们执行

jupyter notebook

进入到Jupyter笔记本环境。

image.png

到这里,环境已经准备好了,我们下面来介绍本文使用的中文文本数据。

数据

一开始,我还曾为寻找现成的中文文本发愁。

网上可以找到的中文文本浩如烟海。

但是拿来做演示,是否会有版权问题,我就不确定了。万一把哪位大家之作拿来做了分析,人家可能就要过问一句“这电子版你是从哪里搞到的啊?”

万一再因此提出诉讼,我可无法招架。

后来发现,我这简直就是自寻烦恼——找别人的文本干什么?用我自己的不就好了?

这一年多以来,我写的文章已有90多篇,总字数已经超过了27万。

image.png

我特意从中找了一篇非技术性的,以避免提取出的关键词全都是Python命令。

我选取的,是去年的那篇《 网约车司机二三事 》。

image.png

这篇文章 ,讲的都是些比较有趣的小故事。







请到「今天看啥」查看全文