•  requests库的使用

pip快速安装

pip install requests

请求方法

每一个请求方法都有一个对应的API,比如GET请求就可以使用get()方法:

import requests
# 发送请求
res = requests.get('https://www.baidu.com/')
# encoding设置编码
res.encoding ='utf-8'
# text 接收返回内容
print(res.text)

而POST请求就可以使用post()方法,并且将需要提交的数据传递给data参数即可:

import requests
# 发送请求
res = requests.post('http://www.httpbin.org/post',data={'username':'q123','password':123})
# encoding设置编码
res.encoding ='utf-8'
# text 接收返回内容
print(res.text)

传递URL参数

传递URL参数也不用再像urllib中那样需要去拼接URL,而是简单的,构造一个字典,并在请求时将其传递给params参数:

import requests
# 设置参数
params = {'kay1':32324242, 'kay2':'fwewefewf232'}
# url拼接
res = requests.get(url='http://httpbin.org/get',params=params)
# 打印url
print(res.url)

自定义Headers

如果想自定义请求的Headers,同样的将字典数据传递给headers参数

import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36'} res = requests.get(url='https://www.baidu.com/', headers=headers)
print(res.headers)

自定义Cookies

Requests中自定义Cookies也不用再去构造CookieJar对象,直接将字典递给cookies参数。

import requests
cookies = {'cookies_are':'working'}
res = requests.get(url='http://httpbin.org/cookies', cookies=cookies)
print(res.text)

设置代理(proxite)

当我们需要使用代理时,同样构造代理字典,传递给proxies参数。

import requests
proxite = {
'http':'http://172.0.0.1:3128',
'https':'http://172.0.0.1:3128'
}
requests.get('https://www.baidu.com/',proxite=proxite)

重定向(allow_redirects)

在网络请求中,我们常常会遇到状态码是3开头的重定向问题,在Requests中是默认开启允许重定向的,即遇到重定向时,会自动继续访问。

import requests
# 重定向(False=关闭重定向,True=开户重定向)
requests.get('https://www.baidu.com/', allow_redirects=False)

禁止证书验证(verify)

有时候我们使用了抓包工具,这个时候由于抓包工具提供的证书并不是由受信任的数字证书颁发机构颁发的,所以证书的验证会失败,所以我们就需要关闭证书验证。 在请求的时候把verify参数设置为False就可以关闭证书验证了。

import requests
# 证书验证(False=关闭验证,True=开户验证)
requests.get('https://www.baidu.com/', verify=False)

设置超时(timeout)

设置访问超时,设置timeout参数即可。

import requests
# 设置超时
requests.get('https://www.baidu.com/', timeout=0.1)
  • 接收响应

响应内容(text)

通过Requests发起请求获取到的,是一个requests.models.Response对象。通过这个对象我们可以很方便的获取响应的内容。

之前通过urllib获取的响应,读取的内容都是bytes的二进制格式,需要我们自己去将结果decode()一次转换成字符串数据。

而Requests通过text属性,就可以获得字符串格式的响应内容。

import requests
# 接收响应内容
res = requests.get('https://www.baidu.com/')
print(res.text)

字符编码(encoding)

Requests会自动的根据响应的报头来猜测网页的编码是什么,然后根据猜测的编码来解码网页内容,基本上大部分的网页都能够正确的被解码。而如果发现text解码不正确的时候,就需要我们自己手动的去指定解码的编码格式。

import requests
# 字符编码
res = requests.get('https://www.baidu.com/')
res.encoding = 'utf-8'
print(res.text)

二进制数据(content)

而如果你需要获得原始的二进制数据,那么使用content属性即可。

import requests
# 二进制数据
res = requests.get('https://www.baidu.com/')
print(res.content)

json数据(json)

如果我们访问之后获得的数据是JSON格式的,那么我们可以使用json()方法,直接获取转换成字典格式的数据。

import requests

res = requests.get('https://api.github.com/events')
# 转换为json数据
res.json()
print(res.text)

状态码(status_code)

通过status_code属性获取响应的状态码

import requests
res = requests.get('https://api.github.com/events')
print(res.status_code)

响应报头(headers)

通过headers属性获取响应的报头

import requests
res = requests.get('https://api.github.com/events')
print(res.headers)

服务器返回的cookies(cookies)

通过cookies属性获取服务器返回的cookies

import requests
res = requests.get('https://api.github.com/events')
print(res.cookies)

url

还可以使用url属性查看访问的url。

import requests
res = requests.get('https://api.github.com/events')
print(res.url)
  • Session对象

在Requests中,实现了Session(会话)功能,当我们使用Session时,能够像浏览器一样,在没有关闭关闭浏览器时,能够保持住访问的状态。 这个功能常常被我们用于登陆之后的数据获取,使我们不用再一次又一次的传递cookies。

首先我们需要去生成一个Session对象,然后用这个Session对象来发起访问,发起访问的方法与正常的请求是一摸一样的。 同时,需要注意的是,如果是我们在get()方法中传入headers和cookies等数据,那么这些数据只在当前这一次请求中有效。如果你想要让一个headers在Session的整个生命周期内都有效的话,需要用以下的方式来进行设置:

import requests
# 发送请求
res = requests.get('https://api.github.com/events')
# 创建session实例
session = requests.Session()
# 用session发送请求
resp = session.get('https://api.github.com/events')
print(resp.text)
  • 爬虫例子

爬取铃声:

import requests
from lxml import etree
# 用户输入要爬取的页码
load =input('请输入您需要下载的页码:')
# 发送请求并以二进制读取数据
mp3_url =requests.get('http://ring.itools.cn/index.php?m=applist&gid=zuire&page=%s'%load).content.decode()
# 解析下载的数据(转换为html)
html = etree.HTML(mp3_url)
# 用xpath获得铃声的链接
html_data = mp3_url.xpath('//div/a/@lurl')
# 循环取列表中的链接
for url in html_data:
# 发送铃声的链接以二是制获取铃声的内容
url_go = requests.get(url).content
# 分割链接,用以命名
name = url.split('/')[-1]
# 打开文件
with open('mp3/%s'%name,'wb') as f:
f.write(url_go)
print('下载完成:',name) print('已经全部下载完成')

豆瓣登录案例:

import requests
# 登录页面
img_url='https://accounts.douban.com/j/mobile/login/basic'
# 添加请求头
headers ={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36',
}
# 发送登录信息,登录信息在浏览器F12中查找或在抓包工具中获得
data ={
'ck': '5oo_',
'name': '1598959****',
'password': 'q12322333',
'remember': 'false'
}
# 发送登录信息到服务器
imges=requests.post(img_url,data=data,verify=False,headers=headers)
# 接收服务器返回的cookies
cookies =imges.cookies
# 发送请求
idex =requests.get('https://www.douban.com/',headers=headers,cookies=cookies)
print(idex.text)

糗事百科信息提取案例:

import re
import requests
# 用户输入采集页面
page = input('输入收集的页面:')
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36',
'Referer': 'https://www.qiushibaike.com/hot/page/1/'
}
# 发送请求并读取返回的内容
res =requests.get('https://www.qiushibaike.com/hot/page/%s/'%page,headers=headers,verify=False).text
# 用re模块提取想要的信息
user = re.findall(r"id='qiushi_tag_1(.*?)'>",res,re.S)
# 拼接链接
url =['https://www.qiushibaike.com/article/'+url for url in user]
for i in url:
# 发送请求
user_url =requests.get(i,headers=headers).text
# 用re模块提取想要的信息
name= re.findall(r'<h1 class="article-title">\n(.*?)的糗事:',user_url,re.S)[0]
tim = re.findall(r'<span class="stats-time">\n(.*?)\n</span>',user_url,re.S)[0]
content =re.findall(r'<div class="content">(.*?)</div>',user_url,re.S)[0]
print('用户:',name.strip())
print('发布时间:',tim)
print(content,'\n')
3

requests库的使用的更多相关文章

  1. Python爬虫小白入门(二)requests库

    一.前言 为什么要先说Requests库呢,因为这是个功能很强大的网络请求库,可以实现跟浏览器一样发送各种HTTP请求来获取网站的数据.网络上的模块.库.包指的都是同一种东西,所以后文中可能会在不同地 ...

  2. Requests库上传文件时UnicodeDecodeError: 'ascii' codec can't decode byte错误解析

    在使用Request上传文件的时候碰到如下错误提示: 2013-12-20 20:51:09,235 __main__ ERROR 'ascii' codec can't decode byte 0x ...

  3. Requests库的几种请求 - 通过API操作Github

    本文内容来源:https://www.dataquest.io/mission/117/working-with-apis 本文的数据来源:https://en.wikipedia.org/wiki/ ...

  4. python脚本实例002- 利用requests库实现应用登录

    #! /usr/bin/python # coding:utf-8 #导入requests库 import requests #获取会话 s = requests.session() #创建登录数据 ...

  5. 大概看了一天python request源码。写下python requests库发送 get,post请求大概过程。

    python requests库发送请求时,比如get请求,大概过程. 一.发起get请求过程:调用requests.get(url,**kwargs)-->request('get', url ...

  6. python WEB接口自动化测试之requests库详解

    由于web接口自动化测试需要用到python的第三方库--requests库,运用requests库可以模拟发送http请求,再结合unittest测试框架,就能完成web接口自动化测试. 所以笔者今 ...

  7. python爬虫从入门到放弃(四)之 Requests库的基本使用

    什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其 ...

  8. (转)Python爬虫利器一之Requests库的用法

    官方文档 以下内容大多来自于官方文档,本文进行了一些修改和总结.要了解更多可以参考 官方文档 安装 利用 pip 安装 $ pip install requests 或者利用 easy_install ...

  9. python requests库学习笔记(上)

    尊重博客园原创精神,请勿转载! requests库官方使用手册地址:http://www.python-requests.org/en/master/:中文使用手册地址:http://cn.pytho ...

  10. 使用Python的requests库进行接口测试——session对象的妙用

    from:http://blog.csdn.net/liuchunming033/article/details/48131051 在进行接口测试的时候,我们会调用多个接口发出多个请求,在这些请求中有 ...

随机推荐

  1. ES5、6、7浅析

    ECMA Script 它是一种由ECMA组织(前身为欧洲计算机制造商协会)制定和发布的脚本语言规范 而我们学的JavaScript是ECMA的实现, 但术语ECMAScript和JavaScript ...

  2. Qcreator3.1.2调试器(windows)版本

    环境:visual studio 2012 qt:5.3.1 默认的ms版本qtcreator只能使用visual studio的编译器,不能使用调试工具.需要gdb或者cdb进行调试,这里介绍使用的 ...

  3. thinkphp+memcache缓存例子

    public function dailyRelays() { $history = I('post.history'); $da = new \Home\Model\DailyrelayModel( ...

  4. Spring实战-README.md

    教程 <Spring实战>(第四版),[美]Craig Walls著,张卫滨译 人民邮电出版社,2016.4 本系列博文包括: 第01章-Spring之旅 第02章-装配Bean 第03章 ...

  5. iBeacon的第一篇(基于Swift实现)

    低功耗蓝牙技术现在几乎是只能手机的标配.随着这一技术的发展,苹果在2013年WWDC大会上,苹果推出iBeacon技术.该技术允许开发人员开发能够使用iBeacon硬件传感器的iOS应用程序,来为相应 ...

  6. Postgresql导出指定的数据表

    两对双引号"\"\""是用于解决:pg_dump: no matching tables were found 问题. pg_dump -h localhost ...

  7. SpringCloud教程 | 第七篇: 高可用的分布式配置中心(Spring Cloud Config)(Finchley版本)

    上一篇文章讲述了一个服务如何从配置中心读取文件,配置中心如何从远程git读取配置文件,当服务实例很多时,都从配置中心读取文件,这时可以考虑将配置中心做成一个微服务,将其集群化,从而达到高可用,架构图如 ...

  8. selenium+jenkins+maven+testNG搭建持续集成环境

    为了简明起见,分几大部分,很基础的细节就不详述了 一·安装jenkins 二·创建一个maven项目的job 2.1   填上SVN的Repository URL 2.2  由于是在本地执行maven ...

  9. WPF成长之路------帧动画(1)

    最近公司的一个项目因为是WPF的,而自己已经很长一段时间没有接触过WPF了,再加上之前没有做过wpf的动画效果,因此在学习的过程中也顺便记录一下,说不定以后还会用上,同时也算是总结一下吧!刚开始写博客 ...

  10. Windows上编译zlib

    把zlib 1.2.8解压到zlib/zlib-1.2.8 在deflate.c文件中把deflate_copyright改成一个static变量. 在zlib目录底下创建并用Visual Studi ...