专栏名称: 大数据挖掘DT数据分析
实战数据资源提供。数据实力派社区,手把手带你玩各种数据分析,涵盖数据分析工具使用,数据挖掘算法原理与案例,机器学习,R语言,Python编程,爬虫。如需发布广告请联系: hai299014
目录
相关文章推荐
人工智能与大数据技术  ·  AI 正在培养“文盲”程序员? ·  3 天前  
数据派THU  ·  AAAI 25 | ... ·  2 天前  
大数据文摘  ·  我找到一个case,让AI绘图,全军覆没。。 ... ·  4 天前  
51好读  ›  专栏  ›  大数据挖掘DT数据分析

P2P网站(人人贷)散标投资数据和借贷人的信息数据爬取

大数据挖掘DT数据分析  · 公众号  · 大数据  · 2017-06-06 19:34

正文

请到「今天看啥」查看全文


Request URL: http://www.we.com/lend/loanList!json.action?pageIndex=2&_=1474379219318 ,你会发现数据是 Json 格式,查看下一页,发现也是如此,不同页面的数据格式是相同的。对此,我们的抓取思路就是:获取网页源代码,从源代码中提取数据。


数据来自于类似这样的地址:http://www.we.com/lend/loanList!json.action?pageIndex=2&_=1457395836611,删除&_=1457395836611后的链接依然有效,打开链接发现是json格式的数据,而且数据就是当前页面的数据。至此,我们就找到了真正的数据来源。


以下就是爬取"散标列表"数据的代码(Python 3.5.2 |Anaconda 4.0.0 (64-bit),低版本好像不能解析utf-8)


要想配置高版本见http://www.cnblogs.com/Yiutto/p/5631930.html


import pandas as pd
import numpy as np
import requests

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}
#headers得根据自己的浏览器F12下自行修改调整,具体可见步骤c

#自定义了一个解析网页的函数
def parse_html(i):

url = "http://www.we.com/lend/loanList!json.action?pageIndex=%s&" % i #数据的真正来源( Request URL

resp=requests.get(url,headers=headers) #获取页面

html=resp.json() #页面文字

data=pd.DataFrame(html['data']['loans'])

data.to_csv('loans%s.csv' % i) #将整理后的数据写入csv格式文档

print("%s successsed" % i)


(页面总共51个,可自己写个循环语句,但循环过程中可能出错,我自己就是一个个页面爬取的,然后再把51个页面的数据loan整合)


总的来说,第一步为得是给第二步做铺垫,因为第二步需要用到第一步中loans.csv中的loanId,可自行将其单独整理为一个csv文档。


(二)如何获取借贷人信息
a.点击其中一栏即可进入借贷人信息










请到「今天看啥」查看全文