专栏名称: 互联网er的早读课
专注互联网产品、用研、交互、设计、运营领域精选内容。信息爆炸的社会,每天用心的去读一篇文章,也许胜过你的走马观花。每早八点,我们等你。
目录
相关文章推荐
新浪科技  ·  【老外急了!#Labubu成跨境电商搜索TO ... ·  18 小时前  
新浪科技  ·  【#保时捷销售回应价格跳水# ... ·  2 天前  
51好读  ›  专栏  ›  互联网er的早读课

我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么

互联网er的早读课  · 公众号  · 科技媒体  · 2017-02-08 08:27

正文

请到「今天看啥」查看全文




这样,我得到了小一百个装满歌词的文件,鼠标滑过就能感觉到从里面溢出来的文艺气息,我感觉一阵忧郁袭来,为了写接下来的代码,我吹掉了一瓶可乐。



接下来,我开始了对这些歌词(约42万字)的分析。


首先是情绪分析 ,通过对这些歌词的自然语言处理,我知道了不同歌手们吟唱的到底是开心还是不开心的事情:



数值的分布比较平均,但大致可以看得出有三个分类, 一类是特别开心的,例如郝云 。但是我一开始也不太懂,为什么丢火车的情绪也这么高,后来听了几遍他们的歌,发现他们虽然唱腔惨兮兮的,但是歌词还是充满正能量的,丢火车乐队歌词中出现次数最多的三个词分别是「永远」「晚安」「倔强」,这些都是正面情绪的词。 第二类则是比较忧伤的,以我们熟悉的逼哥为代表 ,他们的歌词中充斥着孤独,沉默,泪水等词语。虽不暴力,但是多少有一些黑暗。







请到「今天看啥」查看全文