正文
Request URL:
http://www.we.com/lend/loanList!json.action?pageIndex=2&_=1474379219318
,你会发现数据是
Json
格式,查看下一页,发现也是如此,不同页面的数据格式是相同的。对此,我们的抓取思路就是:获取网页源代码,从源代码中提取数据。
数据来自于类似这样的地址:http://www.we.com/lend/loanList!json.action?pageIndex=2&_=1457395836611,删除&_=1457395836611后的链接依然有效,打开链接发现是json格式的数据,而且数据就是当前页面的数据。至此,我们就找到了真正的数据来源。
以下就是爬取"散标列表"数据的代码(Python 3.5.2 |Anaconda 4.0.0 (64-bit),低版本好像不能解析utf-8)
要想配置高版本见http://www.cnblogs.com/Yiutto/p/5631930.html
import pandas as pd
import numpy as np
import requests
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}
#headers得根据自己的浏览器F12下自行修改调整,具体可见步骤c
#自定义了一个解析网页的函数
def parse_html(i):
url = "http://www.we.com/lend/loanList!json.action?pageIndex=%s&" % i #数据的真正来源(
Request
URL
)
resp=requests.get(url,headers=headers) #获取页面
html=resp.json() #页面文字
data=pd.DataFrame(html['data']['loans'])
data.to_csv('loans%s.csv' % i) #将整理后的数据写入csv格式文档
print("%s successsed" % i)
(页面总共51个,可自己写个循环语句,但循环过程中可能出错,我自己就是一个个页面爬取的,然后再把51个页面的数据loan整合)
总的来说,第一步为得是给第二步做铺垫,因为第二步需要用到第一步中loans.csv中的loanId,可自行将其单独整理为一个csv文档。
(二)如何获取借贷人信息
a.点击其中一栏即可进入借贷人信息