专栏名称: 王树义
终身学习者、大学教师。稍微懂一点儿写作、演讲、Python和机器学习。欢迎微信关注并置顶我的公众号“玉树芝兰”(nkwangshuyi)。我已委托“维权骑士”(rightknights.com)为我的文章进行维权行动。
目录
相关文章推荐
Python爱好者社区  ·  python必备手册 ·  2 天前  
Python爱好者社区  ·  全球第二大成人网站,正在被打包出售。。。 ·  2 天前  
Python爱好者社区  ·  又见车企远程锁车?车主无奈,网友怒喷“谁敢买” ·  3 天前  
51好读  ›  专栏  ›  王树义

如何用《玉树芝兰》入门数据科学?

王树义  · 简书  · Python  · 2018-02-20 20:06

正文

请到「今天看啥」查看全文


image

我还专门把它升级做成了视频教程《 如何用Python做词云?(基础篇视频教程) 》,供你观看。

注意图文教程和视频内容 并不完全一致

视频教程目前全系列采用Python 3.6版本。

这个变化的发生,是因为技术的发展。Python已经逐步要过渡到3.X版本了。许多第三方软件包都已经宣布了时间表,尽快支持3.X,放弃2.X的支持。

其实才半年而已,你就可以感受到技术、社群和环境的变化有多快。

可是 目前 某些软件包(例如后面我们要提到的TuriCreate),依然只能支持2.X版本Python。

你需要暂时做个“ 两栖动物 ”,千万不要束缚自己,因为“立场原因”固执着不肯用低版本Python。这样吃亏的是自己。

怎样才能做个“两栖动物”呢?

办法之一,就是使用Anaconda的虚拟环境。可以参考《 如何在Jupyter Notebook中使用Python虚拟环境? 》。

你初始安装版本针对Python 2.7的Anaconda,并不妨碍你快速建立一个3.6版本Python的 虚拟环境

有了这个秘籍,你就可以在不同版本的Python之间左右逢源,游刃有余了。

如果你想做中文词云,请参看这篇文章《 如何用Python做中文分词? 》。你就能做出这样的词云了。

image

如果你希望改变词云边框外观,就参考这篇文章《 Python编程遇问题,文科生怎么办? 》的 最后部分

image

到这里,你已掌握Python运行环境安装、虚拟环境建立与使用、文本文件读取、常见软件包调用、可视化分析与结果呈现和中文分词等基本功夫了。

回头望去,是不是成就感爆棚呢?

自然语言处理

下一步,我们来尝试自然语言处理(Natural Language Processing, NLP)。

情感分析,是NLP在许多社会科学领域热门的应用之一。

如何用Python做情感分析? 》这篇文章,分别从英文和中文两个案例,分别采用不同的软件包,针对性地解决应用需求。

你只需要几行代码,就能让Python告诉你情感的取向。是不是很厉害?

有了情感分析做基础,你可以尝试增加维度,对更大体量的数据做分析。

增加时间维度,就可以持续分析变化的舆情。

如何用Python做舆情时间序列可视化? 》这篇文章,一步步指引你在时间刻度上可视化情感分析结果:

image

这图难看了一些。

不过我们需要容忍自己起步时的笨拙,不断迭代与精进。

希望一出手就满分,对极少数天才,确实无非是日常。

但对大多数人,是拖延症的开始。

你可能迫不及待,尝试换自己的数据做时间序列可视化分析。

不过日期数据如果与样例有出入,可能会出现问题。

这时候,不要慌,请参考《 Python编程遇问题,文科生怎么办? 》的 第二部分 ,其中有详细的错误原因分析与对策展示。

看过后,分析结果图也会迭代成这个样子:







请到「今天看啥」查看全文