专栏名称: 中国人工智能学会

关注中国人工智能学会官方公共账号，收取学会的科普信息、新闻动态、活动预告及人工智能领域科技前沿信息。

目录

相关文章推荐

爱可可-爱生活 · 【[5星]Anime Speaker ... · 昨天

爱可可-爱生活 · 本文通过引入二次型代理函数的统一视角，深刻揭 ... · 昨天

爱可可-爱生活 · 【给程序员的提示词工程实战手册：为开发者提供 ... · 2 天前

机器之心 · 从性能到实战，怎样才算是靠谱的 Agent 产品？ · 2 天前

爱可可-爱生活 · #听见微博# #微博声浪计划# ... · 2 天前

51好读 › 专栏 › 中国人工智能学会

手把手|教你打造一个曲风分类机器人（附视频教程）

中国人工智能学会 · 公众号 · AI · 2017-07-07 16:49

正文

请到「今天看啥」查看全文

④ 我们浏览实际网页的时候发现

网易其实对歌单进行了分页操作，也就是说我们在爬取每个分类的时候还要知道在这个分类中的歌单共有多少页，所以接下来要去解析每一类对应有多少页的歌单（为了缩小爬取量只用了每个风格5页歌单，每一页包含35个歌单）

解析页数

⑤ 拿到每一页的歌单之后

我们就需要去遍历这一页的每一个歌单，并且拿到歌单相应信息。我们需要的信息有【歌单风格，歌单名字，歌单收藏量】分别为【style,name,counts】

遍历一页中的每一个歌单

获得歌单信息及包含的歌曲列表，并携带这些信息继续去解析歌曲列表中包含的歌曲

⑥ 最复杂的一步来了

我们现在需要找到每首歌曲中所包含的信息，我们所需要的有【歌曲名字，歌曲歌手，歌词】其中前两个都好办，只有最后一个歌词，是没有办法直接获取到的，因为歌词是动态加载出来的，为了解决这个问题，我们引入[ selenium + phantomJS ] 来模拟浏览器行为，之所以选择phantom是因为他是无界面的浏览器无需渲染，速度更快一些。

首先在初始化的部分，将PhantomJS的设置初始化。添加headers和timeout。

然后在解析每个music的时候，使用PhantomJS来加载歌词界面，并获得到歌词。（由于获得歌词中包含
等这样的Html元素标签，所以通过正则手段去掉）最终将获得到的全部信息通过Pipeline输出到文件。

这样我们数据提取的过程就结束了，我们得到了一个.csv格式的文件输出，其中每一行就是一首歌及该歌曲的相应信息。部分截图如下：

.csv输出文件部分截图

最后我们就可以用这些数据去进行一些可视化绘图，比如不同风格中最受欢迎的歌手，以及每个风格中的Top10歌曲，不同风格中歌单的平均长。

可视化部分

2.数据清洗与特征选择

因为提取到数据还是相对完善，并没有出现复杂的数据清洗需求。因此只是简单的对数据做了一次去掉Nan空值的操作。因为我们做风格分类，所以我们考虑使用每一首歌曲的歌词作为特征，因此我们将爬取到的信息中的歌词和风格单提出来，其中歌词作为特征，风格作为标签。基于此构建一个牛逼的分类器，实现我们的风格分类。

通过一些复杂的正则和替换操作，拿到最终的训练数据，格式如下：

训练数据

接下来呢，我们搞个有意思的东西【词云】我们使用WordCloud 和 jieba 来实现这个小功能。效果图如下：

古风类

英伦类

是不是还足够炫酷的样子！小插曲而已，那么接下来干点正事。我们要去构建模型了

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · 【[5星]Anime Speaker Embedding：专为动-20250601153144

昨天

爱可可-爱生活 · 本文通过引入二次型代理函数的统一视角，深刻揭示了Polyak步长-20250601055212

昨天

爱可可-爱生活 · 【给程序员的提示词工程实战手册：为开发者提供AI编程助手的高效使-20250531155835

2 天前

机器之心 · 从性能到实战，怎样才算是靠谱的 Agent 产品？

2 天前

爱可可-爱生活 · #听见微博# #微博声浪计划# 本期“TAI快报”深入探讨了五篇-20250531091231

2 天前

闹闹每日星运 · 面对恋爱初期的热情，你够冷静吗？

8 年前

网购投诉平台 · 揭秘|假代购十大常用哄骗伎俩

8 年前

美域健康 · 浙大学者揭示初期肝癌细胞逃逸机制

8 年前

InsDaily · 最美24节气图征服联合国评委，10幅画美醉《中国诗词大会》，他身份惊人圈粉10万，却为孩子跑进山中

8 年前

侣行打工度假 · 【打工度假申请指导课】与【打工度假专属雅思课】上线啦，快来抢位置！

8 年前

移动版

51好读 - 微信公众号文章