请求库之requests库

一、介绍
二、基于get请求
三、基于post请求
- 1 基本用法
- 2 发送post请求，模拟浏览器的登录行为
四、响应Response
五、高级用法

一、介绍

#介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3）

#注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的request请求

#安装：pip3 install requests

#各种请求方式：常用的就是requests.get()和requests.post()

>>> import requests

>>> r = requests.get('https://api.github.com/events')

>>> r = requests.post('http://httpbin.org/post', data = {'key':'value'})

>>> r = requests.put('http://httpbin.org/put', data = {'key':'value'})

>>> r = requests.delete('http://httpbin.org/delete')

>>> r = requests.head('http://httpbin.org/get')

>>> r = requests.options('http://httpbin.org/get')

二、基于get请求

1 基本请求

response是python的对象，包含响应头，响应体......

header = {

    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36',

    'referer': 'https://www.mzitu.com/225078/2'

 }

response = requests.get('https://www.mzitu.com/', headers=header)

print(response.text)  # 响应的文本内容-->解析出图片地址

result = requests.get('https://i3.mmzztt.com/2020/03/14a02.jpg', headers=header)

print(result.content)  # 响应的二进制内容

# 下载并保存图片

with open('a.jpg', 'wb')as f:

   for line in result.iter_content():

       f.write(line)

2 带参数的get请求

header = {

     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36',

    }

方式一：直接拼在url后边

res=requests.get('https://www.baidu.com/s?wd=美女',headers=header)

# 如果查询关键词是中文或者有其他特殊符号，则不得不进行url编码

# from urllib.parse import urlencode,unquote

编码

urlencode('美女',encoding='utf-8')

解码

unquote('%2Fs%3Fwd%3D%25E7%') 

方式二：用params, 可以自动url编码

res=requests.get('http://www.baidu.com/s', headers=header, params={'wd':'美女'})

3 请求携带cookie

方式一，在header中放

header = {

     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36',

     'cookie':'key=asdfasdfasdfsdfsaasdf; key2=asdfasdf; key3=asdfasdf'

     }

res=requests.get(url, headers=header)

方式二，当成参数直接传,推荐

header = {

    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36',

      }

# cookies是一个字典或者CookieJar对象,第一次访问利用respone.cookies获取CookieJar对象-->赋值给变量，访问其他页面时，传入CookieJar对象

res=requests.get(url, headers=header, cookies={'key':'asdfasdf'})

print(res.text)

三、基于post请求

1 基本用法

# requests.post()用法与requests.get()完全一致，特殊的是requests.post()有一个data参数，用来存放请求体数据

# data参数携带数据（urlencoded和json）

res=requests.post(url, data={'name':'lqz'})

res=requests.post(url, json={"age":"18"})

2 发送post请求，模拟浏览器的登录行为

自动登录github(自己处理cookie信息)

2.1 目标站点分析

    浏览器输入https://github.com/login

    然后输入错误的账号密码，抓包

    发现登录行为是post提交到：https://github.com/session

    请求头包含cookie

    请求体包含：

        commit:Sign in

        utf8:✓

        authenticity_token:lbI8IJCwGslZS8qJPnof5e7ZkCoSoMn6jmDTsL1r/m06NLyIbw7vCrpwrFAPzHMep3Tmf/TSJVoXWrvDZaVwxQ==

        login:egonlin

        password:123

2.2流程分析

    先GET：https://github.com/login拿到初始cookie与authenticity_token

    返回POST：https://github.com/session， 带上初始cookie，带上请求体（authenticity_token，用户名，密码等）

    最后拿到登录cookie

ps：如果密码时密文形式，则可以先输错账号，输对密码，然后到浏览器中拿到加密后的密码，github的密码是明文

------------------------------------------------------------

模拟登录，获取cookie

import requests

import re

#第一次请求

r1=requests.get('https://github.com/login')

r1_cookie=r1.cookies.get_dict() #拿到初始cookie(未被授权)

authenticity_token=re.findall(r'name="authenticity_token".*?value="(.*?)"',r1.text)[0] #从页面中拿到CSRF TOKEN

#第二次请求：带着初始cookie和TOKEN发送POST请求给登录页面，带上账号密码

data={

    'commit':'Sign in',

    'utf8':'✓',

    'authenticity_token':authenticity_token,

    'login':'317828332@qq.com',

    'password':'alex3714'

}

r2=requests.post('https://github.com/session',

             data=data,

             cookies=r1_cookie

             )

login_cookie=r2.cookies.get_dict() # 拿到登录后的cookie

#第三次请求：以后的登录，拿着login_cookie就可以,比如访问一些个人配置

r3=requests.get('https://github.com/settings/emails',

                cookies=login_cookie)

print('317828332@qq.com' in r3.text) # 查询邮箱，如果为True，说明cookie已登录

requsets.seesion 自动处理cookie信息

session=requests.session()                         # 生成request.session()对象

res1=session.post('http://127.0.0.1:8000/index/')  # 假设这个请求登录了

res2=session.get('http://127.0.0.1:8000/order/')   # 现在不需要手动带cookie，session自动处理

自动携带cookie，简化上述模拟登录案例

import requests

import re

session=requests.session()

#第一次请求

r1=session.get('https://github.com/login')

authenticity_token=re.findall(r'name="authenticity_token".*?value="(.*?)"',r1.text)[0] #从页面中拿到CSRF TOKEN

#第二次请求

data={

    'commit':'Sign in',

    'utf8':'✓',

    'authenticity_token':authenticity_token,

    'login':'317828332@qq.com',

    'password':'alex3714'

}

r2=session.post('https://github.com/session',

             data=data,

             )

#第三次请求

r3=session.get('https://github.com/settings/emails')

print('317828332@qq.com' in r3.text) #True

四、响应Response

1、response属性

respone=requests.post(url, data={'name':'lqz'})

print(respone.text)         # 响应的文本

print(respone.content)      # 响应体的二进制数据

print(respone.status_code)  # 响应状态码

print(respone.headers)      # 响应头

print(respone.cookies)      # cookieJar对象，访问首页后网站设置了cookie，访问其他页面就需要带这个cookie，用这个方法先把cookie拿出来

print(respone.cookies.get_dict()) #  把cookieJar对象转成字典

print(respone.cookies.items())    #  cookie字典的key和value键值对，取出来后放在元祖里

print(respone.url)        # 请求的url

print(respone.history)    # 是一个列表，放重定向之前的地址

print(respone.encoding)   # 响应的编码方式

respone.iter_content()    # 获取二进制流：图片，视频，大文件，一点一点循环取出来

for line in respone.iter_content():

     f.write(line)

2、编码问题

res=requests.get('http://www.autohome.com/news')

# 一旦打印出来出现乱码问题

# 方式一：按照网站指定的编码格式把响应对象转码

res.encoding='gb2312'

# 方式二：通用的转码方式

res.encoding=res.apparent_encoding

print(res.text)

3、解析json

import requests

response=requests.get('http://httpbin.org/get')

import json

res1=json.loads(response.text) #太麻烦

res2=response.json() #直接获取json数据

五、高级用法

1、SSL Cert Verification(了解)

#证书验证(大部分网站都是https)

import requests

respone=requests.get('https://www.12306.cn') #如果是ssl请求,首先检查证书是否合法,不合法则报错,程序终端

#改进1:去掉报错,但是会报警告

import requests

respone=requests.get('https://www.12306.cn',verify=False) #不验证证书,报警告,返回200

print(respone.status_code)

#改进2:去掉报错,并且去掉警报信息

import requests

from requests.packages import urllib3

urllib3.disable_warnings() #关闭警告

respone=requests.get('https://www.12306.cn',verify=False)

print(respone.status_code)

#改进3:加上证书(本地路径配证书)

#很多网站都是https,但是不用证书也可以访问,大多数情况都是可以携带也可以不携带证书

#知乎\百度等都是可带可不带

#有硬性要求的,则必须带，比如对于定向的用户,拿到证书后才有权限访问某个特定网站

import requests

respone=requests.get('https://www.12306.cn', cert=('/path/server.crt','/path/key'))

print(respone.status_code)

2、使用代理(重点)

proxies={

    'http':'http://egon:123@localhost:9743', #带用户名密码的代理,@符号前是用户名与密码

    'http':'http://localhost:9743',          # 代理ip+端口号

    'https':'https://localhost:9743',

}

respone=requests.get('https://www.12306.cn',proxies=proxies)

# 代理池：列表放了一堆代理ip，每次随机取一个，再发请求就不会封ip了

# 高匿和透明代理？如果使用高匿代理，后端无论如何拿不到你的ip，使用透明，后端能够拿到你的ip

# 后端如何查到透明代理的ip？  后端META中：X-Forwarded-For这个字段可以拿到

3、超时设置

#两种超时:float or tuple

timeout=0.1 #代表接收数据的超时时间

timeout=(0.1,0.2) #0.1代表链接超时  0.2代表接收数据的超时时间

import requests

respone=requests.get('https://www.baidu.com',timeout=0.0001)

4、认证设置(了解)

# 老的网站登录,弹出一个框,要求你输入用户名密码（与alter很类似），此时是无法获取html的

r=requests.get(url, auth=('user','password'))

print(r.status_code)

5、异常处理

#可以查看requests.exceptions获取异常类型

from requests.exceptions import *

# 捕获一个总异常就行了

try:

    res = requests.get('http://www.baidu.com',timeout=0.00001)

except Exception as e:

    print(e)

6、上传文件

res=requests.post(url, files={'myfile':open('a.jpg','rb')})

print(res.text)

# 后端request.FILES.get('myfile') 获取到上传的文件对象

# requests模块可以用来与后端做交互，如短信接口和支付接口的sdk封装就是用的requests模块，如果没有第三方的sdk包，基于api写第三方交互就用requests模块

请求库之requests库的更多相关文章

爬虫请求库之requests库
一.介绍介绍:使用requests可以模拟浏览器的请求,比之前的urllib库使用更加方便注意:requests库发送请求将网页内容下载下来之后,并不会执行js代码,这需要我们自己分析目标站点然后 ...
【Python爬虫】HTTP基础和urllib库、requests库的使用
引言: 一个网络爬虫的编写主要可以分为三个部分: 1.获取网页 2.提取信息 3.分析信息本文主要介绍第一部分,如何用Python内置的库urllib和第三方库requests库来完成网页的获取.阅 ...
[python爬虫]Requests-BeautifulSoup-Re库方案--Requests库介绍
[根据北京理工大学嵩天老师“Python网络爬虫与信息提取”慕课课程编写文章中部分图片来自老师PPT 慕课链接:https://www.icourse163.org/learn/BIT-10018 ...
python库：bs4，BeautifulSoup库、Requests库
Beautiful Soup https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ Beautiful Soup 4.2.0 文档 htt ...
Python3 urllib库和requests库
1. Python3 使用urllib库请求网络 1.1 基于urllib库的GET请求请求百度首页www.baidu.com ,不添加请求头信息: import urllib.requests d ...
异步请求Python库 grequests的应用和与requests库的响应速度的比较
requests库是python一个优秀的HTTP库,使用它可以非常简单地执行HTTP的各种操作,例如GET.POST等.不过,这个库所执行的网络请求都是同步了,即cpu发出请求指令后,IO执行发送和 ...
『居善地』接口测试 — 4、Requests库发送GET请求
目录 1.使用Requests库发送带参数的GET请求 2.查看GET请求的内容 3.带请求头.参数的Get请求 Requests库GET请求是使用HTTP协议中的GET请求方式对目标网站发起请求. ...
python requests库学习笔记（上）
尊重博客园原创精神,请勿转载! requests库官方使用手册地址:http://www.python-requests.org/en/master/:中文使用手册地址:http://cn.pytho ...
（爬虫）requests库
一.requests库简介 urllib库和request库的作用一样,都是服务器发起请求数据,但是requests库比urllib库用起来更方便,它的接口更简单,选用哪种库看自己. 如果没有安装过这 ...

随机推荐

freeswitch的话单模块
概述最近因为业务需要,在看freeswitch中话单相关的一些模块. 在voip的使用过程中,话单是重要的基础模块,涉及到计费和问题查找. 呼叫话单最重要的一点是稳定,不能有错误或遗漏. 本章对fs ...
从零开始手写Cartographer(1): 开端
写在前面的话我做SLAM已经三年了.读书时初学SLAM,一开始无从下手,直到读了高博士的博客,茅塞顿开,渐入佳境.后来又买了他的<视觉SLAM十四讲>,常伴手边,直至毕业.几个月前找工作 ...
day03_3_流程控制练习题
# 流程控制练习题 # 一.编程题 1.实现一个课程名称和课程代号的转换器:输入下表中的课程代号,输出课程的名称.用户可以循环进行输入,如果输入0就退出系统.(**使用****switch +whil ...
9.2 DAG上的动态规划
在有向无环图上的动态规划是学习动态规划的基础,很多问题都可以转化为DAG上的最长路,最短路或路径计数问题 9.2.1 DAG模型嵌套矩形问题: 矩形之间的可嵌套关系是一种典型的二元关系,二元关系可以 ...
VMware Workstation是可以跟hyper-v 共存的！
VMware Workstation是可以跟hyper-v 共存的! 神奇的事情之前一直不知道这个事情,后来发现,原来是可以的,震惊了我的双眼. 我之前一直用的是桌面的Docker Desktop ...
以太坊 layer2: optimism 源码学习 (一)
作者:林冠宏 / 指尖下的幽灵.转载者,请: 务必标明出处. 掘金:https://juejin.im/user/1785262612681997 博客:http://www.cnblogs.com/ ...
Swift高仿iOS网易云音乐Moya+RxSwift+Kingfisher+MVC+MVVM
效果列文章目录因为目录比较多,每次更新这里比较麻烦,所以推荐点击到主页,然后查看iOS Swift云音乐专栏. 目简介这是一个使用Swift(还有OC版本)语言,从0开发一个iOS平台,接近企业 ...
青峰Flutter视频播放软件
下载地址: https://github.com/patton88/peak_flutter_player/raw/master/peak_flutter_player_v1.1.5_release0 ...
越折腾越好用的 3 款开源 APP
高中的时候我特别喜欢捣鼓手机,然后我一个哥们儿在我的强烈推荐下买了个 HTC Dream(G1) 手机. G1 作为谷歌的第一个亲儿子,它出厂搭载的是 Android 1.5 系统,但当时已经出到了 ...
NC20471 [ZJOI2007]棋盘制作
题目链接题目题目描述国际象棋是世界上最古老的博弈游戏之一,和中国的围棋.象棋以及日本的将棋同享盛名. 据说国际象棋起源于易经的思想,棋盘是一个8*8大小的黑白相间的方阵,对应八八六十四卦,黑白对 ...

请求库之requests库

一、介绍

二、基于get请求

1 基本请求

2 带参数的get请求

3 请求携带cookie

三、基于post请求

1 基本用法

2 发送post请求，模拟浏览器的登录行为

四、响应Response

五、高级用法

请求库之requests库的更多相关文章

随机推荐

热门专题