专栏名称: 编程派
Python程序员都在看的公众号,跟着编程派一起学习Python,看最新国外教程和资源!
目录
相关文章推荐
51好读  ›  专栏  ›  编程派

许巍写歌最喜欢用什么词?

编程派  · 公众号  · Python  · 2017-03-22 11:50

正文

请到「今天看啥」查看全文


下面是计算方法:

由于每首歌的长短不同,所以我们将词频归一化,即某个词的词频记为该词在每篇文章中的次数除以该篇文章的总词数的累加和。

而IDF记为文档总数除以出现该词的文档数,显然,出现某个词的文档数越多,分母越大,则IDF越小,比重越小。

获取数据

获取数据细节不说了,就是查看网页源代码,然后制定爬取策略,我没有用框架,但是代码量也不大。

这里还是贴下实现的代码:

  1. import requests

  2. import re

  3. import urllib

  4. from bs4 import







请到「今天看啥」查看全文