requests库

虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests宣传是 “HTTP for Humans”，说明使用更简洁方便。

安装和文档地址：

利用pip可以非常方便的安装：

pip install requests

中文文档：http://docs.python-requests.org/zh_CN/latest/index.html
github地址：https://github.com/requests/requests

发送GET请求：

最简单的发送get请求就是通过requests.get来调用：
```
response = requests.get("http://www.baidu.com/")
```

添加headers和查询参数：
如果想添加 headers，可以传入headers参数来增加请求头中的headers信息。如果要将参数放在url中传递，可以利用 params 参数。相关示例代码如下：

 import requests

 kw = {'wd':'中国'}

 headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

 # params 接收一个字典或者字符串的查询参数，字典类型自动转换为url编码，不需要urlencode()

 response = requests.get("http://www.baidu.com/s", params = kw, headers = headers)

 # 查看响应内容，response.text 返回的是Unicode格式的数据

 print(response.text)

 # 查看响应内容，response.content返回的字节流数据

 print(response.content)

 # 查看完整url地址

 print(response.url)

 # 查看响应头部字符编码

 print(response.encoding)

 # 查看响应码

 print(response.status_code)

发送POST请求：

最基本的POST请求可以使用post方法：

response = requests.post("http://www.baidu.com/",data=data)

传入data数据：
这时候就不要再使用urlencode进行编码了，直接传入一个字典进去就可以了。比如请求拉勾网的数据的代码：

 import requests

 url = "https://www.lagou.com/jobs/positionAjax.json?city=%E6%B7%B1%E5%9C%B3&needAddtionalResult=false&isSchoolJob=0"

 headers = {

     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',

     'Referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput='

 }

 data = {

     'first': 'true',

     'pn': 1,

     'kd': 'python'

 }

 resp = requests.post(url,headers=headers,data=data)

 # 如果是json数据，直接可以调用json方法

 print(resp.json())

使用代理：

使用requests添加代理也非常简单，只要在请求的方法中（比如get或者post）传递proxies参数就可以了。示例代码如下：

import requests

url = "http://httpbin.org/get"

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',

}

proxy = {

    'http': '171.14.209.180:27829'

}

resp = requests.get(url,headers=headers,proxies=proxy)

with open('xx.html','w',encoding='utf-8') as fp:

    fp.write(resp.text)

cookie：

如果在一个响应中包含了cookie，那么可以利用cookies属性拿到这个返回的cookie值：

import requests

url = "http://www.renren.com/PLogin.do"

data = {"email":"970138074@qq.com",'password':"pythonspider"}

resp = requests.get('http://www.baidu.com/')

print(resp.cookies)

print(resp.cookies.get_dict())

session：

之前使用urllib库，是可以使用opener发送多个请求，多个请求之间是可以共享cookie的。那么如果使用requests，也要达到共享cookie的目的，那么可以使用requests库给我们提供的session对象。注意，这里的session不是web开发中的那个session，这个地方只是一个会话的对象而已。还是以登录人人网为例，使用requests来实现。示例代码如下：

import requests

url = "http://www.renren.com/PLogin.do"

data = {"email":"970138074@qq.com",'password':"pythonspider"}

headers = {

    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36"

}

# 登录

session = requests.session()

session.post(url,data=data,headers=headers)

# 访问大鹏个人中心

resp = session.get('http://www.renren.com/880151247/profile')

print(resp.text)

处理不信任的SSL证书：

对于那些已经被信任的SSL整数的网站，比如https://www.baidu.com/，那么使用requests直接就可以正常的返回响应。示例代码如下：

resp = requests.get('http://www.12306.cn/mormhweb/',verify=False)

print(resp.content.decode('utf-8'))

编写Scrapy-Redis分布式爬虫：

要将一个Scrapy项目变成一个Scrapy-redis项目只需修改以下三点就可以了：

将爬虫的类从scrapy.Spider变成scrapy_redis.spiders.RedisSpider；或者是从scrapy.CrawlSpider变成scrapy_redis.spiders.RedisCrawlSpider。
将爬虫中的start_urls删掉。增加一个redis_key="xxx"。这个redis_key是为了以后在redis中控制爬虫启动的。爬虫的第一个url，就是在redis中通过这个发送出去的。
在配置文件中增加如下配置：

    # Scrapy-Redis相关配置

    # 确保request存储到redis中

    SCHEDULER = "scrapy_redis.scheduler.Scheduler"

    # 确保所有爬虫共享相同的去重指纹

    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

    # 设置redis为item pipeline

    ITEM_PIPELINES = {

        'scrapy_redis.pipelines.RedisPipeline': 300

    }

    # 在redis中保持scrapy-redis用到的队列，不会清理redis中的队列，从而可以实现暂停和恢复的功能。

    SCHEDULER_PERSIST = True

    # 设置连接redis信息

    REDIS_HOST = '127.0.0.1'

    REDIS_PORT = 6379

运行爬虫：
1. 在爬虫服务器上。进入爬虫文件所在的路径，然后输入命令：scrapy runspider [爬虫名字]。
2. 在Redis服务器上，推入一个开始的url链接：redis-cli> lpush [redis_key] start_url开始爬取。

Python爬虫之requests库的使用的更多相关文章

Python爬虫之requests库介绍(一)
一:Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 ...
python爬虫之requests库
在python爬虫中,要想获取url的原网页,就要用到众所周知的强大好用的requests库,在2018年python文档年度总结中,requests库使用率排行第一,接下来就开始简单的使用reque ...
Python爬虫：requests 库详解，cookie操作与实战
原文第三方库 requests是基于urllib编写的.比urllib库强大,非常适合爬虫的编写. 安装: pip install requests 简单的爬百度首页的例子: response.te ...
【Python爬虫】Requests库的基本使用
Requests库的基本使用阅读目录基本的GET请求带参数的GET请求解析Json 获取二进制数据添加headers 基本的POST请求 response属性文件上传获取cookie 会 ...
python爬虫(1)requests库
在pycharm中安装requests库的一种方法首先找到设置搜索然后安装,蓝色代表已经安装 requests库中的get请求与HTTP协议相对应,requests库也有七种请求方式. 获取ur ...
python爬虫之requests库介绍(二)
一.requests基于cookie操作引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们 ...
Python爬虫之Requests库的基本使用
import requests response = requests.get('http://www.baidu.com/') print(type(response)) print(respons ...
Python爬虫系列-Requests库详解
Requests基于urllib,比urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求. 实例引入 import requests response = requests.get( ...
python下载安装requests库
一.python下载安装requests库 1.到git下载源码zip源码https://github.com/requests/requests 2.解压到python目录下: 3.“win+R”进 ...

随机推荐

C#中的字段与属性的区别及属性的作用
C#中的字段与属性的区别及属性的作用先上代码 public class Employee { //字段 private string name; //属性 public string Name { ...
JSP, EL, JSTL的使用
JSP基础指令和语法回顾在Jsp页面: 只要是Java代码就会原封不动的输出, 如果是html代码,就会转义为 out.write("<html>\r\n") 这样 ...
hessian简单介绍
Hessian是基于HTTP的轻量级远程服务解决方案,Hessian像Rmi一样,使用二进制消息进行客户端和服务器端交互.但与其他二进制远程调用技术(例如Rmi)不同的是,它的二进制消息可以移植其他非 ...
前端-CS-04
一:DOM(文档对象模型) document 简写DOM 1.DOM中定义变量用 var 如下截图中:定义demo变量 2.取一个input输入框中的值的方法: 1)先如1中,在dom中顶一个一个变 ...
依赖反转原则DIP 与使用了Repository模式的asp.net core项目结构
DIP 依赖反转原则 Dependency Inversion Principle 的定义如下: 高级别的模块不应该依赖于低级别的模块, 他们都应该依赖于抽象. 假设Controller依赖于Repo ...
C/C++ 中的算术及其陷阱
目录概述 C/C++ 整数的阴暗角落整型字面量整型提升与寻常算术转换算术溢出检测位运算技巧总结参考概述无符号数和有符号数是通用的计算机概念,具体到编程语言上则各有各的不同,程序员是解 ...
Linux和Docker的Capabilities介绍及Setcap命令
Linux和Docker的capabilities介绍转载:https://www.cnblogs.com/charlieroro/p/10108577.html 验证环境:centos7 x86/ ...
第18 章： Kubernetes 调度和资源管理
Kubernetes 调度和资源管理这节课主要讲三部分的内容: Kubernetes 的调度过程: Kubernetes 的基础调度能力(资源调度.关系调度): Kubernetes 高级调度能力( ...
HTML（二）：HTML常用标签（上）
标签语义学习标签是有技巧的,重点是记住每个标签的语义.简单理解就是指标签的含义,即这个标签是用来干嘛的. 根据标签的语义,在合适的地方给一个最为合理的标签,可以让页面结构更清晰. 标题标签<h ...
Spring Boot 2.3 新特性优雅停机详解
什么是优雅停机先来一段简单的代码,如下: @RestController public class DemoController { @GetMapping("/demo") p ...

Python爬虫之requests库的使用