专栏名称: 王树义

终身学习者、大学教师。稍微懂一点儿写作、演讲、Python和机器学习。欢迎微信关注并置顶我的公众号“玉树芝兰”(nkwangshuyi)。我已委托“维权骑士”（rightknights.com）为我的文章进行维权行动。

如何用Python提取中文关键词？

王树义 · 简书 · Python · 2017-12-07 22:18

正文

请到「今天看啥」查看全文

2017-12-7_21-24-56_snapshots-01.jpg

除了README.md这个github项目默认说明文件外，目录下还有两个文件，分别是数据文件sample.txt和程序源代码文件demo-extract-keyword.ipynb。

结巴分词

我们使用的关键词提取工具为结巴分词。

之前在《如何用Python做中文分词？》一文中，我们曾经使用过该工具为中文语句做分词。这次我们使用的，是它的另一项功能，即关键词提取。

请进入终端，使用cd命令进入解压后的文件夹demo-keyword-extraction-master，输入以下命令：

pip install jieba

好了，软件包工具也已经准备就绪。下面我们执行

jupyter notebook

进入到Jupyter笔记本环境。

image.png

到这里，环境已经准备好了，我们下面来介绍本文使用的中文文本数据。

数据

一开始，我还曾为寻找现成的中文文本发愁。

网上可以找到的中文文本浩如烟海。

但是拿来做演示，是否会有版权问题，我就不确定了。万一把哪位大家之作拿来做了分析，人家可能就要过问一句“这电子版你是从哪里搞到的啊？”

万一再因此提出诉讼，我可无法招架。

后来发现，我这简直就是自寻烦恼——找别人的文本干什么？用我自己的不就好了？

这一年多以来，我写的文章已有90多篇，总字数已经超过了27万。

image.png

我特意从中找了一篇非技术性的，以避免提取出的关键词全都是Python命令。

我选取的，是去年的那篇《网约车司机二三事》。

image.png

这篇文章，讲的都是些比较有趣的小故事。

请到「今天看啥」查看全文

推荐文章

百职帮 · 这个暑假学Python，开学直接惊艳所有人！！

16 小时前

百职帮 · 这个暑假学Python，开学直接惊艳所有人！！

16 小时前

Python开发者 · 今年IT就业市场的风向已经很明显了。。。

昨天

Python开发者 · GitHub 第 10 亿个仓库封神了！官方祝贺认证，全球程序员笑翻：就爱这野路子！

昨天

Python爱好者社区 · python必备手册

3 天前

Python爱好者社区 · 挑行李回家的高考女生火了！热心网友愿资助，多方最新回应，张雪峰建议

2 天前

安卓开发精选 · 尽可能的构建一个拓展性比”较好”的项目，会让你后期迭代好受点

8 年前

朱莉生活日记 · 孩子最不喜欢的几种妈妈，很多妈妈都不知道！

8 年前

强国梦 · 老祖宗10句话：让人舒服，让人明白！

8 年前

财经早餐 · 中国最牛无人工厂曝光，车间一个人影都没有，震惊国人！

8 年前

漫心情 · 女人的温度取决于男人的态度

8 年前