Python爬虫经典案例详解：爬取豆瓣电影top250写入Excel表格

python · 公众号 · Python · 2021-02-24 21:11

正文

请到「今天看啥」查看全文

注意，一层层的点下去的方法只适合于获取到每层的第一个元素，比如前面图中我们知道实际有三个span，其他两个英文名、其他译名，但我们只取到第一个。

获取年份段落

yearline=item.find('div','bd').p.contents[2].string这句话综合了find_all和.p两种方法，取到了item下面第二个div（class='bd')。

.contents[2]是取得这一行第3个文字小节,content单词是内容的意思，
标记将整个p标记内容分成了三段（0段，1段，2段）。

br将contents内容分为三段

所以，yearline=item.find('div','bd').p.contents[2].string这句话得到的是1994 / 美国 / 犯罪剧情这行，但实际上它还包含了很多空格和回车换行符号的。所以我们再使用两个replace替换掉空格和回车。replace是替换的意思，在数据里\n是表示换行回车。

yearline=yearline.replace(' ','') #去掉这一行的空格
yearline=yearline.replace('\n','') #去掉这一行的回车换行

获取年份数字
经过上面的处理，我们得到了干净的1994 / 美国 / 犯罪剧情，我们只要截取前面4个数字就可以了，也就是从第0个字符截取到第4个字符之前（0，1，2，3），我们使用year=yearline[0:4]就可以实现。
输出和复制到excel
print(title,'\t',year)，中间的'\t'是制表符，我们可以直接鼠标选择output输出的内容，右键复制，然后打开excel新建空白文件，然后选择合适的表格区域范围，【右键-选择性粘贴】弹窗中选择Unicode文本，就可以把数据粘贴到excel表格中。