爬虫 之 requests
Requests
安装pip install requests
官方设计原则:让HTTP服务于人类
一、常用方法
import requests
url = "http://www.httpbin.org/get"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"}
res = requests.get(url, headers=headers)
print(res.encoding) # 获取字符编码
print(res.text) # 获取HTML字符串
print(res.content) # 以二进制形式打开
print(res.status_code) # 获取响应状态码
print(res.url) # 获取响应URL
汇总:
encoding # 响应字符编码
text # 字符串
content # 字节流
status_code # HTTP响应码
url # 实际数据的URL地址
示例:
保存图片到本地
url为https://inews.gtimg.com/newsapp_bt/0/10186045426/1000
import requests url = "https://inews.gtimg.com/newsapp_bt/0/10186045426/1000"
headers = {"User-Agent":"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E"} res = requests.get(url=url, headers=headers).content with open("demo.jpg", "wb") as f:
f.write(res)
字符编码也是使用
urllib.parse.urlencode()
1. GET
requests.get()
1.1 params
查询参数
1.1.1 参数类型
字典类型,字典中键值对作为查询参数
params = {
"kw":"泰勒·斯威夫特吧"
"pn":50
}
无需编码,requests模块会将其封装好请求
1.1.2 使用方法
res = requests.get(url, params, headers=headers)
1.1.3 特点
- URL为基准的URL地址,不包含查询参数
- 该方法会自动对params字典编码,然后和url拼接
1.1.4 示例
import requests
#基准的URL地址
base_url = "http://www.baidu.com/s?"
# 查询参数
params = {
"kw":"泰勒·斯威夫特吧",
"pn":50
}
# 请求头
headers = {
"User-Agent":"Mozilla/5.0"
}
res = requests.get(url=base_url, params=params, headers=headers)
print(res.content.decode("utf-8", "ignore"))
1.2 auth
Web客户端认证
1.2.1 特点
- 针对于需要web客户端用户名密码认证的网站
auth = ('username','password')
1.2.3 使用
import requests
from config import *
base_url = "http://code.tarena.com.cn/AIDCode/aid1903/12-spider/spider_day{}_note.zip"
auth = (USERNAME, PASSWD)
headers = {"User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3895.5 Safari/537.36"}
def down():
for day in range(1,11):
day = str(day).zfill(2)
url = base_url.format(day)
try:
res = requests.get(url=url, auth=auth, headers=headers).content
filename = url.split("/")[-1]
with open(filename, "wb") as f:
f.write(res)
print(filename, "OK")
except Exception:
print("资源不存在")
down()
# 配置文件
USERNAME = ""
PASSWD = ""
1.3 verify
证书认证参数
1.3.1 使用场景
- 适用网站: https类型网站但是没有经过 证书认证机构 认证的网站
- 适用场景: 抛出 SSLError 异常则考虑使用此参数
1.3.2 参数类型
- verify=True(默认) : 检查证书认证
- verify=False(常用): 忽略证书认证
1.3.3 示例
response = requests.get(
url=url,
params=params,
headers=headers,
verify=False
)
1.4 proxies
代理参数
2. POST
携带form-data请求server
控制台介绍
打开浏览器,F12打开控制台,找到Network选项卡
控制台常用选项
Network: 抓取网络数据包
ALL: 抓取所有的网络数据包
XHR:抓取异步加载的网络数据包
JS : 抓取所有的JS文件
Sources: 格式化输出并打断点调试JavaScript代码,助于分析爬虫中一些参数
Console: 交互模式,可对JavaScript中的代码进行测试
抓取具体网络数据包后
单击左侧网络数据包地址,进入数据包详情,查看右侧
右侧:
Headers: 整个请求信息
General、Response Headers、Request Headers、Query String、Form Data
Preview: 对响应内容进行预览
Response:响应内容
2.1data
data = {key:value} # 构造form-data
response = requests.post(url,data=data,headers=headers)
# data :post数据(Form表单数据-字典格式)
2.1.1 特点
GET请求 : 参数在URL地址中有显示
POST请求: Form表单提交数据
2.1.2 案例
有道翻译破解案例(post)
二、高级用法
1. 会话保持
步骤:
- 寻找POST地址(一般在form表单的action属性)
- 发送用户名和密码,用session保持登录
步骤:
- 实例化session对象
session = requests.session()
- POST表单中的action地址,注意携带data
- GET主页地址
# 实例化session对象
session = requests.session()
# 先POST form中的action地址
session.post(url=post_url, data=data, headers=headers)
# 再GET
html = session.get(url=get_url, headers=headers).text
爬虫 之 requests的更多相关文章
- Python爬虫之requests
爬虫之requests 库的基本用法 基本请求: requests库提供了http所有的基本请求方式.例如 r = requests.post("http://httpbin.org/pos ...
- 第三百二十二节,web爬虫,requests请求
第三百二十二节,web爬虫,requests请求 requests请求,就是用yhthon的requests模块模拟浏览器请求,返回html源码 模拟浏览器请求有两种,一种是不需要用户登录或者验证的请 ...
- 孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块
孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块 (完整学习过程屏幕记录视频地址在文末) 从今天起开始正式学习Python的爬虫. 今天已经初步了解了两个主要的模块: ...
- Python爬虫练习(requests模块)
Python爬虫练习(requests模块) 关注公众号"轻松学编程"了解更多. 一.使用正则表达式解析页面和提取数据 1.爬取动态数据(js格式) 爬取http://fund.e ...
- 自定义 scrapy 爬虫的 requests
之前使用 scrapy 抓取数据的时候 ,默认是在逻辑中判断是否执行下一次请求 def parse(self): # 获取所有的url,例如获取到urls中 for url in urls: yiel ...
- python爬虫 - python requests网络请求简洁之道
http://blog.csdn.net/pipisorry/article/details/48086195 requests简介 requests是一个很实用的Python HTTP客户端库,编写 ...
- 爬虫之requests模块
requests模块 什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求.功能强大,用法简洁高效.在爬虫领域中占据着半壁江山的 ...
- 爬虫之Requests&beautifulsoup
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕 ...
- 爬虫之requests
一.基本用法 1.GET请求 ①r=requests.get(url) --返回Response对象 def get(url, params=None, **kwargs): params={... ...
- 04.Python网络爬虫之requests模块(1)
引入 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用. 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症.冗余代码症.重新发明轮子症.啃文档 ...
随机推荐
- JS 中构造函数和普通函数的区别
原来只是随意的了解了下 , 但是最近有点忘了 于是详细了解下 加深下印象. 1.构造函数也是一个普通函数,创建方式和普通函数一样,但构造函数习惯上首字母大写 2.构造函数和普通函数的区别在于:调用方式 ...
- 在一个含有1-n的序列中,每次找到第Ki小的数,并把它删除(线段树)
提交链接 Data structure is one of the basic skills for Computer Science students, which is a particular ...
- Linux curl 常用示例
本篇文章包含了curl的常用案例使用. 如果想了解curl选项的详细说明,请参考前一篇文章「Linux curl 命令详解」. 常见网页访问示例 基本用法 访问一个网页 curl https://ww ...
- android ——活动
活动(Activity)主要用于和用户进行交互,是一种可以包含用户界面的组件. 1.手动创建活动 右击com.example.administrator.exp5→New→Activity→Empty ...
- laya 下以光标为中心缩放对象
private MouseWheel(e: Laya.Event) { console.log("event"); let currentSp = e.target as Laya ...
- 章节十六、3-TestNG方法和类注解
一.Test Suite(测试套件) 我们通常认为一个testcase就是一个测试方法,但是会有很多的testcase,所以我们不可能把所有的testcase放到同一个测试类中,假如需要测试的页面有1 ...
- Docker进阶-资源管理Swarm+Portainer
Docker Swarm资源管理 Docker Swarm是Docker官方三剑客项目之一,提供Docker容器集群服务,是Docker官方对容器云生态进行支持的核心方案. 使用它,用户可以将多个Do ...
- 以阿里IoT开发物联网和应用平台
1. 链接物联网的概念 物联网(The Internet of Things,简称IOT)是指通过 各种信息传感器.射频识别技术.全球定位系统.红外感应器.激光扫描器等各种装置与技术,实时采集任何需要 ...
- 如何用Python实现敏感词的过滤
题目要求如下: 从文件解析敏感词,从终端获取用户输入.根据敏感词对用户输入进行过滤.这里过滤需要考虑不止一个过滤词:即将读取的所有过滤词,放进一个列表,用屏蔽词检索用户输入,如果有屏蔽词,则将其替换为 ...
- 字典更新与K-SVD
字典更新与K-SVD 凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 1. 矩阵的奇异值分解 (Singular Value Decomposition, S ...