Requests: 让 HTTP 服务人类

一、简介

虽然Python的标准库中 urllib 模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests 自称 “HTTP for Humans”，说明使用更简洁方便。

Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用：）

Requests 继承了urllib的所有特性。Requests支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动确定响应内容的编码，支持国际化的 URL 和 POST 数据自动编码。

requests 的底层实现其实就是 urllib3
Requests的文档非常完备，中文文档也相当不错。Requests能完全满足当前网络的需求，支持Python 2.6—3.5，而且能在PyPy下完美运行。

开源地址：https://github.com/kennethreitz/requests

中文文档 API：http://docs.python-requests.org/zh_CN/latest/index.html

二、安装方式

利用 pip 安装或者利用 easy_install 都可以完成安装：

$ pip install requests

$ easy_install requests
基本GET请求（headers参数和 parmas参数）

三、 GET请求

import requests

response = requests.get("http://www.baidu.com/")

print(response.content.decode("utf-8"))

也可以这么写

response = requests.request("get", "http://www.baidu.com/")
2. 添加 headers 和查询参数
如果想添加 headers，可以传入headers参数来增加请求头中的headers信息。如果要将参数放在url中传递，可以利用params参数。

import requests

kw = {'wd':'长城'}

# 请求头

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0;

Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)

 Chrome/54.0.2840.99 Safari/537.36"}

# params 接收一个字典或者字符串的查询参数，字典类型自动转换为url编码，

#不需要urlencode()

url = "http://www.baidu.com/s?"

response = requests.get(url, params = kw, headers = headers)

# 查看响应内容，response.text 返回的是Unicode格式的数据

print(response.text)

# 查看响应内容，response.content返回的字节流数据

print(response.content)

# 查看完整url地址

print(response.url)

# 查看响应头部字符编码

print(response.encoding)

# 查看响应码

print(response.status_code)

运行结果



......

......

'http://www.baidu.com/s?wd=%E9%95%BF%E5%9F%8E'

'utf-8'

200

使用response.text 时，Requests 会基于 HTTP 响应的文本编码自动解码响应内容，大多数 Unicode 字符集都能被无缝地解码。

使用response.content 时，返回的是服务器响应数据的原始二进制字节流，可以用来保存图片等二进制文件。

四、POST请求

最基本的GET请求可以直接用post方法
response = requests.post("http://www.baidu.com/", data = data)
传入data数据
对于 POST 请求来说，我们一般需要为它增加一些参数。那么最基本的传参方法可以利用data这个参数。
模拟有道翻译

import json

import time

import requests

def youdaoAPI(kw):

    '''

    :param kw: 翻译的内容

    :return:

    '''

    # 请求头

    header = {

        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)

        AppleWebKit/537.36 (KHTML,

        like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

    # translate_o 去掉_o

    url = "http://fanyi.youdao.com/translate?

    smartresult=dict&smartresult=rule"

    response = requests.post(url, data=kw, headers=header)

    res = response.content

    tgt = json.loads(res)

    print(tgt["translateResult"])

if __name__ == '__main__':

    kw = input("请输入你想翻译的内容：")

    timet = int(time.time() * 1000)

    data = {

        "i": kw,

        "from": "AUTO",

        "to": "AUTO",

        "smartresult": "dict",

        "client": "fanyideskweb",

        "salt": timet,

        "sign": "f66461b42fe9edb6d88230788fb33cfb",

        "doctype": "json",

        "version": "2.1",

        "keyfrom": "fanyi.web",

        "action	": "FY_BY_REALTIME",

        "typoResult	": "false",

    }

    youdaoAPI(data)

五、显示json文件

# 自带json模块

print(response.json())

运行结果

{'type': 'ZH_CN2EN', 'errorCode': 0,

 'elapsedTime': 1, 'translateResult':

 [[{'src': '长城', 'tgt': 'The Great Wall'}]]}

六、代理（proxies参数）

如果需要使用代理，可以通过为任意请求方法提供proxies参数来配置单个请求：

import requests

# 根据协议类型，选择不同的代理

proxies = {

  "http": "http://12.34.56.79:9527",

  "https": "http://12.34.56.79:9527",

}

response = requests.get("http://www.baidu.com", proxies = proxies)

print response.text

# 带密码代理

httpProxy = {"https": "http://User1:123456@10.3.132.6:808"}

七、web客户端验证

如果是Web客户端验证，需要添加 auth = (账户名, 密码)

import requests

auth=('test', '123456')

response = requests.get('http://192.168.199.107', auth = auth)

print response.text

八、Cookies 和 Session

1、Cookies

如果一个响应中包含了cookie，那么我们可以利用 cookies参数拿到：

import requests

response = requests.get("http://www.baidu.com/")

# 7. 返回CookieJar对象:

cookiejar = response.cookies

# 8. 将CookieJar转为字典：

cookiedict = requests.utils.dict_from_cookiejar(cookiejar)

print(cookiejar)

print(cookiedict)

运行结果：

<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>

{'BDORZ': '27315'}

2、Session

在 requests 里，session对象是一个常用的对象，这个对象代表一次用户会话：从客户端浏览器连接服务器开始，到客户端浏览器与服务器断开。

会话能让我们在跨请求时候保存某些参数，比如在同一个 Session 实例发出的所有请求之间保存cookie 。

实现人人网登录：

import requests

# 1. 创建session对象，可以保存Cookie值

ssion = requests.session()

# 2. 处理 headers

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0;

 Win64; x64)

AppleWebKit/537.36 (KHTML,

like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

# 3. 需要登录的用户名和密码

data = {"email":"mr_mao_hacker@163.com", "password":"alarmchime"}

# 4. 发送附带用户名和密码的请求，并获取登录后的Cookie值，保存在ssion里

ssion.post("http://www.renren.com/PLogin.do", data = data)

# 5. ssion包含用户登录后的Cookie值，

#可以直接访问那些登录后才可以访问的页面

response = ssion.get("http://www.renren.com/410043129/profile")

# 6. 打印响应内容

print(response.text)

# 将cookie对象转为字典

cookieDict = requests.utils.dict_from_cookiejar(ssion.cookies)

# 保存cookie

with open("session.txt", 'w', encoding='utf-8') as f:

    f.write(str(cookieDict))

    f.flush()

九、SSL证书验证

处理HTTPS请求 SSL证书验证
Requests也可以为HTTPS请求验证SSL证书：

要想检查某个主机的SSL证书，你可以使用 verify 参数（也可以不写）

import requests

response = requests.get("https://www.baidu.com/", verify=True)

# 也可以省略不写

# response = requests.get("https://www.baidu.com/")

print(response.text)

如果SSL证书验证不通过，或者不信任服务器的安全证书，则会报出SSLError，据说 12306 证书是自己做的：
来测试一下：

import requests

response = requests.get("https://www.12306.cn/mormhweb/")

print(response.text)

报错：

SSLError: ("bad handshake: Error([('SSL routines',

'ssl3_get_server_certificate', 'certificate verify failed')],)",)

如果我们想跳过 12306 的证书验证，把 verify 设置为 False 就可以正常请求了。

import requests

url = "https://www.12306.cn/mormhweb/"

response = requests.get(url,verify=False)

print(response.text)

【后记】：如果文章对您有帮助，打赏下呗。微信 1257309054，欢迎交流学习*_*
微信

支付宝

python爬虫中的requests模块的更多相关文章

爬虫中之Requests 模块的进阶
requests进阶内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个 ...
Python爬虫学习1: Requests模块的使用
Requests函数库是学习Python爬虫必备之一, 能够帮助我们方便地爬取. Requests: 让HTTP服务人类. 本文主要参考了其官方文档. Requests具有完备的中英文文档, 能完全满 ...
吴裕雄--天生自然python爬虫：使用requests模块的get和post方式抓取中国旅游网站和有道翻译网站翻译内容数据
import requests url = 'http://www.cntour.cn/' strhtml = requests.get(url) print(strhtml.text) URL='h ...
爬虫基础之requests模块
1. 爬虫简介 1.1 概述网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 1.2 爬虫的价值在互 ...
爬虫简介与requests模块
爬虫简介与requests模块一爬虫简介概述网络爬虫是一种按照一定规则,通过网页的链接地址来寻找网页的,从网站某一个页面(通常是首页)开始,读取网页的内容,找到网页中的其他链接地址,然后通过这 ...
Python爬虫与数据分析之模块：内置模块、开源模块、自定义模块
专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...
Python编程中 re正则表达式模块介绍与使用教程
Python编程中 re正则表达式模块介绍与使用教程一.前言: 这篇文章是因为昨天写了一篇 shell script 的文章,在文章中俺大量调用多媒体素材与网址引用.这样就会有一个问题就是:随着俺 ...
python网络爬虫之二requests模块
requests http请求库 requests是基于python内置的urllib3来编写的,它比urllib更加方便,特别是在添加headers, post请求,以及cookies的设置上,处理 ...
爬虫开发5.requests模块的cookie和代理操作
代理和cookie操作一.基于requests模块的cookie操作引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests ...

随机推荐

java整合Elasticsearch,实现crud以及高级查询的分页,范围,排序功能,泰文分词器的使用,分组,最大,最小,平均值,以及自动补全功能
//为index创建mapping,index相当于mysql的数据库,数据库里的表也要给各个字段创建类型,所以index也要给字段事先设置好类型: 使用postMan或者其他工具创建:(此处我使用p ...
Spring 配置文件AOP
1  2 <bean id="permAspect" class="com.tx.spring.aspect.Perm ...
Python练习题 035：Project Euler 007：第10001个素数
本题来自 Project Euler 第7题:https://projecteuler.net/problem=7 # Project Euler: Problem 7: 10001st prime ...
0923 lca练习
P1967 货车运输题目描述 A 国有 nnn 座城市,编号从 11 1 到 n nn,城市之间有 mmm 条双向道路.每一条道路对车辆都有重量限制,简称限重. 现在有 qqq 辆货车在运输货物, ...
MacOS如何正确配置Idea自带Maven插件的环境变量？（亲测）
背景安装了IDEA开发工具,想执行Maven的命令.但是又没有通过自己下载Maven的安装包进行安装,只是想直接使用IDEA自带的Maven插件来执行Maven的各种命令.由于刚开始使用macos对 ...
JVM系列【3】Class文件加载过程
JVM系列笔记目录虚拟机的基础概念 class文件结构 class文件加载过程 jvm内存模型 JVM常用指令 GC与调优 Class文件加载过程 JVM加载Class文件主要分3个过程:Loadi ...
LiteOS-任务篇-源码分析-任务调度函数
目录前言笔录草稿核心源码分析 osTaskSchedule函数源码分析 osPendSV函数源码分析 TaskSwitch函数源码分析调度上层源码分析 osSchedule函数源码分析 LOS ...
如何win7安装tomcat
首先安装jdk,查看当前jdk版本. >java -version 显示的是1.8.0_131 为此我们安装的tomcat版本是apache-tomcat-9.0.38-windows-x64. ...
加密sqlite3数据库文件
目录 EncryptSqlite3 实现原理使用方法不足之处 GitHub地址 EncryptSqlite3 加密sqlite3数据库,产生的数据库文件别人打不开. 实现原理在写入文件前对每个字 ...
联赛%你测试10T2：漫无止境的八月
题意: 思路: 有几个特殊的性质: 在不考虑q里面的单点修改,我们先只判断一个序列是否Yes. 我们注意到每次操作都是对一个长度为k的区间进行区间加减1的操作,所以我们如果将序列里面的数按%k分组,把 ...

python爬虫中的requests模块