正文
我还专门把它升级做成了视频教程《
如何用Python做词云?(基础篇视频教程)
》,供你观看。
注意图文教程和视频内容
并不完全一致
。
视频教程目前全系列采用Python 3.6版本。
这个变化的发生,是因为技术的发展。Python已经逐步要过渡到3.X版本了。许多第三方软件包都已经宣布了时间表,尽快支持3.X,放弃2.X的支持。
其实才半年而已,你就可以感受到技术、社群和环境的变化有多快。
可是
目前
某些软件包(例如后面我们要提到的TuriCreate),依然只能支持2.X版本Python。
你需要暂时做个“
两栖动物
”,千万不要束缚自己,因为“立场原因”固执着不肯用低版本Python。这样吃亏的是自己。
怎样才能做个“两栖动物”呢?
办法之一,就是使用Anaconda的虚拟环境。可以参考《
如何在Jupyter Notebook中使用Python虚拟环境?
》。
你初始安装版本针对Python 2.7的Anaconda,并不妨碍你快速建立一个3.6版本Python的
虚拟环境
。
有了这个秘籍,你就可以在不同版本的Python之间左右逢源,游刃有余了。
如果你想做中文词云,请参看这篇文章《
如何用Python做中文分词?
》。你就能做出这样的词云了。
如果你希望改变词云边框外观,就参考这篇文章《
Python编程遇问题,文科生怎么办?
》的
最后部分
。
到这里,你已掌握Python运行环境安装、虚拟环境建立与使用、文本文件读取、常见软件包调用、可视化分析与结果呈现和中文分词等基本功夫了。
回头望去,是不是成就感爆棚呢?
自然语言处理
下一步,我们来尝试自然语言处理(Natural Language Processing, NLP)。
情感分析,是NLP在许多社会科学领域热门的应用之一。
《
如何用Python做情感分析?
》这篇文章,分别从英文和中文两个案例,分别采用不同的软件包,针对性地解决应用需求。
你只需要几行代码,就能让Python告诉你情感的取向。是不是很厉害?
有了情感分析做基础,你可以尝试增加维度,对更大体量的数据做分析。
增加时间维度,就可以持续分析变化的舆情。
《
如何用Python做舆情时间序列可视化?
》这篇文章,一步步指引你在时间刻度上可视化情感分析结果:
这图难看了一些。
不过我们需要容忍自己起步时的笨拙,不断迭代与精进。
希望一出手就满分,对极少数天才,确实无非是日常。
但对大多数人,是拖延症的开始。
你可能迫不及待,尝试换自己的数据做时间序列可视化分析。
不过日期数据如果与样例有出入,可能会出现问题。
这时候,不要慌,请参考《
Python编程遇问题,文科生怎么办?
》的
第二部分
,其中有详细的错误原因分析与对策展示。
看过后,分析结果图也会迭代成这个样子: