专栏名称: python
隔天更新python文章,我希望用我的努力换来劳动的成果帮助更多的人掌握一门技术,因此我要更加努力。
目录
相关文章推荐
51好读  ›  专栏  ›  python

Python爬取B站,咸鱼的正确 GET 姿势

python  · 公众号  · Python  · 2017-09-22 21:12

正文

请到「今天看啥」查看全文


requests
import re
class BiliBiliSpider (object) : def __init__ (self) : self._images = []                         self._oldImages = [] # 保存已经获取过的 图片地址

def _getImages (self, url) : content = requests.get(url).text                           dic = json.loads(re.match( r'^([a-zA-Z0-9_(]+)(.*)(\))$' , content).group( 2 ))                           data = dic[ 'data' ]

# 判断是 动态区 和 还是 评论区的数据 if 'archives' in data:                              final = data[ 'archives' ]
else :                                final = data

for i in range(len(final)):                                image = final[i][ 'pic' ]
if image not in self._oldImages: # 去重 self._images.append(image)                                    self._oldImages.append(image)
def getResult (self, url) : self._getImages(url)                             temp = self._images                             self._images = []
return temp

OK,接下来写下载器:

  1. 获取需要下载的 图片地址

  2. 进行下载

  3. 我这里是用数字作为图片的名字保存起来的,数字用一个 count.txt 文件保存,为了好看一点吧...

        #coding:utf-8

        __author__ = 'Lanc4r'







请到「今天看啥」查看全文