专栏名称: python
隔天更新python文章,我希望用我的努力换来劳动的成果帮助更多的人掌握一门技术,因此我要更加努力。
目录
相关文章推荐
Python爱好者社区  ·  64k!确实可以封神了! ·  3 天前  
Python爱好者社区  ·  公司Rust团队全员被裁,只因把服务写得「太 ... ·  昨天  
Python爱好者社区  ·  近4年不租房睡车里省10万元!41岁程序员回 ... ·  2 天前  
Python爱好者社区  ·  强的离谱!CNN,yyds ·  2 天前  
Python爱好者社区  ·  《MCP原理与实践》—— ... ·  4 天前  
51好读  ›  专栏  ›  python

Python爬虫经典案例详解:爬取豆瓣电影top250写入Excel表格

python  · 公众号  · Python  · 2021-02-24 21:11

正文

请到「今天看啥」查看全文



注意,一层层的点下去的方法只适合于获取到每层的第一个元素,比如前面图中我们知道实际有三个span,其他两个英文名、其他译名,但我们只取到第一个。

  1. 获取年份段落

yearline=item.find('div','bd').p.contents[2].string这句话综合了find_all和.p两种方法,取到了item下面第二个div(class='bd')。

.contents[2]是取得这一行第3个文字小节,content单词是内容的意思,
标记将整个p标记内容分成了三段(0段,1段,2段)。


br将contents内容分为三段

所以,yearline=item.find('div','bd').p.contents[2].string这句话得到的是1994 / 美国 / 犯罪 剧情这行,但实际上它还包含了很多空格和回车换行符号的。所以我们再使用两个replace替换掉空格和回车。replace是替换的意思,在数据里\n是表示换行回车。

yearline=yearline.replace(' ','') #去掉这一行的空格
yearline=yearline.replace('\n','') #去掉这一行的回车换行
  1. 获取年份数字

  2. 经过上面的处理,我们得到了干净的1994 / 美国 / 犯罪 剧情,我们只要截取前面4个数字就可以了,也就是从第0个字符截取到第4个字符之前(0,1,2,3),我们使用year=yearline[0:4]就可以实现。

  3. 输出和复制到excel

  4. print(title,'\t',year),中间的'\t'是制表符,我们可以直接鼠标选择output输出的内容,右键复制,然后打开excel新建空白文件,然后选择合适的表格区域范围, 【右键-选择性粘贴】弹窗中选择Unicode文本 ,就可以把数据粘贴到excel表格中。







请到「今天看啥」查看全文