一、介绍

#介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3)

#注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求

#安装:pip3 install requests

#各种请求方式:常用的就是requests.get()和requests.post()
>>> import requests
>>> r = requests.get('https://api.github.com/events')
>>> r = requests.post('http://httpbin.org/post', data = {'key':'value'})
>>> r = requests.put('http://httpbin.org/put', data = {'key':'value'})
>>> r = requests.delete('http://httpbin.org/delete')
>>> r = requests.head('http://httpbin.org/get')
>>> r = requests.options('http://httpbin.org/get')

二、基于get请求

1 基本请求

response是python的对象,包含响应头,响应体......

header = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36',
'referer': 'https://www.mzitu.com/225078/2'
} response = requests.get('https://www.mzitu.com/', headers=header)
print(response.text) # 响应的文本内容-->解析出图片地址 result = requests.get('https://i3.mmzztt.com/2020/03/14a02.jpg', headers=header)
print(result.content) # 响应的二进制内容 # 下载并保存图片
with open('a.jpg', 'wb')as f:
for line in result.iter_content():
f.write(line)

2 带参数的get请求

header = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36',
} 方式一:直接拼在url后边
res=requests.get('https://www.baidu.com/s?wd=美女',headers=header)
# 如果查询关键词是中文或者有其他特殊符号,则不得不进行url编码
# from urllib.parse import urlencode,unquote
编码
urlencode('美女',encoding='utf-8')
解码
unquote('%2Fs%3Fwd%3D%25E7%') 方式二:用params, 可以自动url编码
res=requests.get('http://www.baidu.com/s', headers=header, params={'wd':'美女'})

3 请求携带cookie

方式一,在header中放
header = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36',
'cookie':'key=asdfasdfasdfsdfsaasdf; key2=asdfasdf; key3=asdfasdf'
}
res=requests.get(url, headers=header) 方式二,当成参数直接传,推荐
header = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36',
} # cookies是一个字典或者CookieJar对象,第一次访问利用respone.cookies获取CookieJar对象-->赋值给变量,访问其他页面时,传入CookieJar对象
res=requests.get(url, headers=header, cookies={'key':'asdfasdf'})
print(res.text)

三、基于post请求

1 基本用法

# requests.post()用法与requests.get()完全一致,特殊的是requests.post()有一个data参数,用来存放请求体数据
# data参数携带数据(urlencoded和json) res=requests.post(url, data={'name':'lqz'}) res=requests.post(url, json={"age":"18"})

2 发送post请求,模拟浏览器的登录行为

自动登录github(自己处理cookie信息)
2.1 目标站点分析
浏览器输入https://github.com/login
然后输入错误的账号密码,抓包
发现登录行为是post提交到:https://github.com/session
请求头包含cookie
请求体包含:
commit:Sign in
utf8:✓
authenticity_token:lbI8IJCwGslZS8qJPnof5e7ZkCoSoMn6jmDTsL1r/m06NLyIbw7vCrpwrFAPzHMep3Tmf/TSJVoXWrvDZaVwxQ==
login:egonlin
password:123 2.2流程分析
先GET:https://github.com/login拿到初始cookie与authenticity_token
返回POST:https://github.com/session, 带上初始cookie,带上请求体(authenticity_token,用户名,密码等)
最后拿到登录cookie ps:如果密码时密文形式,则可以先输错账号,输对密码,然后到浏览器中拿到加密后的密码,github的密码是明文
------------------------------------------------------------
模拟登录,获取cookie import requests
import re #第一次请求
r1=requests.get('https://github.com/login')
r1_cookie=r1.cookies.get_dict() #拿到初始cookie(未被授权)
authenticity_token=re.findall(r'name="authenticity_token".*?value="(.*?)"',r1.text)[0] #从页面中拿到CSRF TOKEN #第二次请求:带着初始cookie和TOKEN发送POST请求给登录页面,带上账号密码
data={
'commit':'Sign in',
'utf8':'✓',
'authenticity_token':authenticity_token,
'login':'317828332@qq.com',
'password':'alex3714'
}
r2=requests.post('https://github.com/session',
data=data,
cookies=r1_cookie
) login_cookie=r2.cookies.get_dict() # 拿到登录后的cookie #第三次请求:以后的登录,拿着login_cookie就可以,比如访问一些个人配置
r3=requests.get('https://github.com/settings/emails',
cookies=login_cookie) print('317828332@qq.com' in r3.text) # 查询邮箱,如果为True,说明cookie已登录
requsets.seesion 自动处理cookie信息
session=requests.session()                         # 生成request.session()对象
res1=session.post('http://127.0.0.1:8000/index/') # 假设这个请求登录了
res2=session.get('http://127.0.0.1:8000/order/') # 现在不需要手动带cookie,session自动处理 自动携带cookie,简化上述模拟登录案例 import requests
import re session=requests.session()
#第一次请求
r1=session.get('https://github.com/login')
authenticity_token=re.findall(r'name="authenticity_token".*?value="(.*?)"',r1.text)[0] #从页面中拿到CSRF TOKEN #第二次请求
data={
'commit':'Sign in',
'utf8':'✓',
'authenticity_token':authenticity_token,
'login':'317828332@qq.com',
'password':'alex3714'
}
r2=session.post('https://github.com/session',
data=data,
) #第三次请求
r3=session.get('https://github.com/settings/emails') print('317828332@qq.com' in r3.text) #True

四、响应Response

1、response属性

respone=requests.post(url, data={'name':'lqz'})
print(respone.text) # 响应的文本
print(respone.content) # 响应体的二进制数据
print(respone.status_code) # 响应状态码
print(respone.headers) # 响应头
print(respone.cookies) # cookieJar对象,访问首页后网站设置了cookie,访问其他页面就需要带这个cookie,用这个方法先把cookie拿出来
print(respone.cookies.get_dict()) # 把cookieJar对象转成字典
print(respone.cookies.items()) # cookie字典的key和value键值对,取出来后放在元祖里
print(respone.url) # 请求的url
print(respone.history) # 是一个列表,放重定向之前的地址
print(respone.encoding) # 响应的编码方式 respone.iter_content() # 获取二进制流:图片,视频,大文件,一点一点循环取出来
for line in respone.iter_content():
f.write(line)
2、编码问题

res=requests.get('http://www.autohome.com/news')
# 一旦打印出来出现乱码问题
# 方式一:按照网站指定的编码格式把响应对象转码
res.encoding='gb2312' # 方式二:通用的转码方式
res.encoding=res.apparent_encoding
print(res.text)
3、解析json

import requests
response=requests.get('http://httpbin.org/get') import json
res1=json.loads(response.text) #太麻烦 res2=response.json() #直接获取json数据

五、高级用法

1、SSL Cert Verification(了解)

#证书验证(大部分网站都是https)
import requests
respone=requests.get('https://www.12306.cn') #如果是ssl请求,首先检查证书是否合法,不合法则报错,程序终端 #改进1:去掉报错,但是会报警告
import requests
respone=requests.get('https://www.12306.cn',verify=False) #不验证证书,报警告,返回200
print(respone.status_code) #改进2:去掉报错,并且去掉警报信息
import requests
from requests.packages import urllib3
urllib3.disable_warnings() #关闭警告
respone=requests.get('https://www.12306.cn',verify=False)
print(respone.status_code) #改进3:加上证书(本地路径配证书)
#很多网站都是https,但是不用证书也可以访问,大多数情况都是可以携带也可以不携带证书
#知乎\百度等都是可带可不带
#有硬性要求的,则必须带,比如对于定向的用户,拿到证书后才有权限访问某个特定网站
import requests
respone=requests.get('https://www.12306.cn', cert=('/path/server.crt','/path/key'))
print(respone.status_code)
2、使用代理(重点)

proxies={
'http':'http://egon:123@localhost:9743', #带用户名密码的代理,@符号前是用户名与密码
'http':'http://localhost:9743', # 代理ip+端口号
'https':'https://localhost:9743',
}
respone=requests.get('https://www.12306.cn',proxies=proxies) # 代理池:列表放了一堆代理ip,每次随机取一个,再发请求就不会封ip了
# 高匿和透明代理?如果使用高匿代理,后端无论如何拿不到你的ip,使用透明,后端能够拿到你的ip
# 后端如何查到透明代理的ip? 后端META中:X-Forwarded-For这个字段可以拿到
3、超时设置
#两种超时:float or tuple
timeout=0.1 #代表接收数据的超时时间
timeout=(0.1,0.2) #0.1代表链接超时 0.2代表接收数据的超时时间 import requests
respone=requests.get('https://www.baidu.com',timeout=0.0001)
4、认证设置(了解)

# 老的网站登录,弹出一个框,要求你输入用户名密码(与alter很类似),此时是无法获取html的
r=requests.get(url, auth=('user','password'))
print(r.status_code)
5、异常处理
#可以查看requests.exceptions获取异常类型
from requests.exceptions import * # 捕获一个总异常就行了
try:
res = requests.get('http://www.baidu.com',timeout=0.00001)
except Exception as e:
print(e)
6、上传文件
res=requests.post(url, files={'myfile':open('a.jpg','rb')})
print(res.text) # 后端request.FILES.get('myfile') 获取到上传的文件对象
# requests模块可以用来与后端做交互,如短信接口和支付接口的sdk封装就是用的requests模块,如果没有第三方的sdk包,基于api写第三方交互就用requests模块

请求库之requests库的更多相关文章

  1. 爬虫请求库之requests库

    一.介绍 介绍:使用requests可以模拟浏览器的请求,比之前的urllib库使用更加方便 注意:requests库发送请求将网页内容下载下来之后,并不会执行js代码,这需要我们自己分析目标站点然后 ...

  2. 【Python爬虫】HTTP基础和urllib库、requests库的使用

    引言: 一个网络爬虫的编写主要可以分为三个部分: 1.获取网页 2.提取信息 3.分析信息 本文主要介绍第一部分,如何用Python内置的库urllib和第三方库requests库来完成网页的获取.阅 ...

  3. [python爬虫]Requests-BeautifulSoup-Re库方案--Requests库介绍

    [根据北京理工大学嵩天老师“Python网络爬虫与信息提取”慕课课程编写  文章中部分图片来自老师PPT 慕课链接:https://www.icourse163.org/learn/BIT-10018 ...

  4. python库:bs4,BeautifulSoup库、Requests库

    Beautiful Soup https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ Beautiful Soup 4.2.0 文档 htt ...

  5. Python3 urllib库和requests库

    1. Python3 使用urllib库请求网络 1.1 基于urllib库的GET请求 请求百度首页www.baidu.com ,不添加请求头信息: import urllib.requests d ...

  6. 异步请求Python库 grequests的应用和与requests库的响应速度的比较

    requests库是python一个优秀的HTTP库,使用它可以非常简单地执行HTTP的各种操作,例如GET.POST等.不过,这个库所执行的网络请求都是同步了,即cpu发出请求指令后,IO执行发送和 ...

  7. 『居善地』接口测试 — 4、Requests库发送GET请求

    目录 1.使用Requests库发送带参数的GET请求 2.查看GET请求的内容 3.带请求头.参数的Get请求 Requests库GET请求是使用HTTP协议中的GET请求方式对目标网站发起请求. ...

  8. python requests库学习笔记(上)

    尊重博客园原创精神,请勿转载! requests库官方使用手册地址:http://www.python-requests.org/en/master/:中文使用手册地址:http://cn.pytho ...

  9. (爬虫)requests库

    一.requests库简介 urllib库和request库的作用一样,都是服务器发起请求数据,但是requests库比urllib库用起来更方便,它的接口更简单,选用哪种库看自己. 如果没有安装过这 ...

随机推荐

  1. 5-15 Virtual 虚拟机

    虚拟机基本使用 Virtualbox安装流程 RockyLinux VirtualBox清华大学个版本下载路径 https://mirrors.tuna.tsinghua.edu.cn/virtual ...

  2. 002 Redis使用及API

    Redis的使用及相关API 1.作用: 提高查询效率 一定程度上可以减轻数据库服务器的冲击压力,从而保护了数据库 //1.是否包含key redisTemplate.hasKey(key) //2. ...

  3. Solution -「2021.11.27」\Infty

    T1. 显然往 \(x < 0, y < 0\) 的点走一定不优. 根据转移式可发现 \(C(x, y)\) 即从 \((0, 0)\) 走到 \((x, y)\) 的方案数 \(\dbi ...

  4. 解决报错ExecStart=/usr/sbin/mysqld --daemonize --pid-file=/run/mysqld/mysqld.pid (code

    问题的由来 MySQL服务没有正常关机,是电脑没电后自动关机产生,记录一下排查过程 1.本以为是pid的问题,上网找了教程,解决不了,然后看日志看了网上各种说是数据库内存溢出 2021-03-12T1 ...

  5. WPS衍生新软件,填补一大缺憾,让office汗颜,Excel用户很开心

    首先,向大家报告一个好消息 WPS今天宣布品牌升级,有了更明确的品牌定位:专注创新的国民办公软件.WPS已有34年的历史了,自1988年诞生之日起,它在求伯君和雷军的带领下,一路披荆斩棘,虽有坎坷,但 ...

  6. 机器学习-Kmeans

    一.什么是聚类算法? 1.用于发现共同的群体(cluster),比如:邮件聚类.用户聚类.图片边缘. 2.聚类唯一会使用到的信息是:样本与样本之间的相似度(跟距离负相关) 给定N个训练样本(未标记的) ...

  7. 西文字符与中文GBK编码的区别

    一般来讲二者读取的时候西文字符的数值是正,而中文字符的数值是负的,此时读取的是中文字符的前一半,需要再读取一个char类型的数据,在大多数运行环境下这个规则都是用. ps:转自算法竞赛的笔记,要注意在 ...

  8. 教你PC端网易云音乐自定义代理,VIP免费听歌!

    今天分享一份福利吧,使用网易云音乐自定义代理实现免费听和下载VIP.极高音质.付费的歌曲,这里主要针对PC端电脑版的,需要自己写脚本运行. 01 安装node.js Node.js是一个让 JavaS ...

  9. 说起分布式自增ID只知道UUID?SnowFlake(雪花)算法了解一下(Python3.0实现)

    原文转载自「刘悦的技术博客」https://v3u.cn/a_id_155 但凡说起分布式系统,我们肯定会对一些海量级的业务进行分拆,比如:用户表,订单表.因为数据量巨大一张表完全无法支撑,就会对其进 ...

  10. [MRCTF2020]套娃-1

    1.打开之后未发现有用的信息,右键检查源代码信息,发现部分代码信息,结果如下: 2.对代码进行分析:$_SERVER['QUERY_STRING']:指的是查询的字符串,即地址栏?之后的部分,%5f指 ...