爬虫篇 | 认识Python最最最常用语重要的库Requests

马哥Linux运维 · 公众号 · 运维 · 2019-12-09 21:16

正文

请到「今天看啥」查看全文

values = {'user':'aaa','id':'123'}
url = 'http://www.baidu.com'
r = requests.get(url,values)
print r.url

得到：http://www.baidu.com/?user=aaa&id=123

3.Post请求方式

values = {'user':'aaa','id':'123'}
url = 'http://www.baidu.com'
r = requests.post(url,values)
print r.url
#print r.text

得到：
http://www.baidu.com/

4.请求头headers处理

user_agent = {'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4295.400 QQBrowser/9.7.12661.400'}
header = {'User-Agent':user_agent}
url = 'http://www.baidu.com/'
r = requests.get(url,headers=header)
print r.content

注意处理请求的headers
很多时候我们服务器会检验请求是否来自于浏览器，所以我们需要在请求的头部伪装成浏览器来请求服务器.一般做请求的时候，最好都要伪装成浏览器，防止出现拒绝访问等错误，这也是一种反爬虫的一种策略

特别说明，以后无论我们做什么请求，一定要带上headers,千万不要偷懒省事，把这里当成一条交通规则来理解，闯红灯不一定会发生危险但不安全，为了省事，我们遵循红灯停绿灯行就够了，做网络爬虫请求也一样，必须把这个headers加上，以防出错.

user_agent = {'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4295.400 QQBrowser/9.7.12661.400'

请到「今天看啥」查看全文

推荐文章

InfoQ 架构头条 · 游戏教父John Carmack：LLM不是游戏的未来

8 小时前

安卓开发精选 · Android 自定义View UC下拉刷新效果(三)下

8 年前

投资数据库 · 罗兰贝格《Communication on Progress for the UN Global Compact》发布公告

8 年前

牛熊交易室 · 五月龙虎榜：光学行业爱折腾，三聚神雾遭抢筹

7 年前

牛弹琴 · 别了！王健林！看看亚洲首富马云和马化腾在干什么，又将引领哪一批人致富？

7 年前

法询金融固收组 · PPP融资渠道、政府出资基金及产业引导基金架构、风控实务要点及案例分析（11.4-5|北京）

7 年前