python爬虫之requests的高级使用

2024-08-27 22:11:40 原文

1、requests能上传文件

# 导入requests模块

import requests

# 定义一个dict

files = {'file': open('D:/360Downloads/1.txt', 'rb')}

# post请求

response = requests.post("http://httpbin.org/post",files=files)

# 以字符串形式返回

print(response.text)

结果：

{
"args": {},
"data": "",
"files": {
"file": "data:application/octet-stream;base64,ZGVtbzAxxOO6ww=="
},
"form": {},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Content-Length": "151",
"Content-Type": "multipart/form-data; boundary=9502063320dadabde8e0197a299a933c",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.23.0",
"X-Amzn-Trace-Id": "Root=1-5e71d1bc-221f2f9c5a23aa1c11d21b3c"
},
"json": null,
"origin": "111.77.5.100",
"url": "http://httpbin.org/post"
}

Process finished with exit code 0

2、requests能获取cookies（网页识别码）

# 导入requests模块
import requests
# get请求
response=requests.get("https://fanyi.baidu.com")
# 获取cookies
print(response.cookies)
# 获取cookies信息
print(tuple(response.cookies))
# 调用items，遍历一个dict的key和value
for key,value in response.cookies.items():
    print(key+"="+value)

结果：

<RequestsCookieJar[<Cookie BAIDUID=72BE4EB04DB39349C036BA1BDF4D2895:FG=1 for .baidu.com/>]>
(Cookie(version=0, name='BAIDUID', value='72BE4EB04DB39349C036BA1BDF4D2895:FG=1', port=None, port_specified=False, domain='.baidu.com', domain_specified=True, domain_initial_dot=True, path='/', path_specified=True, secure=False, expires=1616058282, discard=False, comment=None, comment_url=None, rest={}, rfc2109=True),)

BAIDUID=405DCB00DFE182D6581CBFAA3297C6BA:FG=1

Process finished with exit code 0

知道cookies的name，快速访问cookies的value：

# 导入requests模块

import requests

# get请求

response= requests.get('http://fanyi.baidu.com')

# 访问cookies的值

print(response.cookies['BAIDUID'])

# 以元组形式返回cookies

print(tuple(response.cookies))

结果：

B5A1A6A7B622F295DF802DA4D10F92CB:FG=1
(Cookie(version=0, name='BAIDUID', value='B5A1A6A7B622F295DF802DA4D10F92CB:FG=1', port=None, port_specified=False, domain='.baidu.com', domain_specified=True, domain_initial_dot=True, path='/', path_specified=True, secure=False, expires=1616068429, discard=False, comment=None, comment_url=None, rest={}, rfc2109=True),)

Process finished with exit code 0

3、会话维持

cookies一个作用就是模拟登入，做会话维持，如何把自己的cookies发送到服务器上：

# 导入requests模块
import requests
# 导入json模块
import json
# 定义cookies，dict形式
cookies={"number":"1234567"}
# get请求，加上
response=requests.get("http://httpbin.org/cookies",cookies=cookies)
# 以字符串形式返回
print(response.text)

结果：

{
"cookies": {
"number": "1234567"
}
}

Process finished with exit code 0

或者用requests.session也可以把自己的cookies发到服务器上：

# 导入requests模块

import requests

# 建立session对象

session = requests.session()

# get请求

response = session.get('http://httpbin.org/cookies/set/number/1234567')

# 以字符串形式返回

print(response.text)

结果：

{
"cookies": {
"number": "1234567"
}
}

Process finished with exit code 0

4、证书验证

# 导入requests模块

import requests

# get请求

response = requests.get('https://www.12306.cn')

# 在请求https时，request会进行证书的验证，如果验证失败则会抛出异常

print(response.status_code)

如果无证书验证，会抛出异常。有证书验证，返回200。

怎么关闭证书验证：

# 导入requests模块

import requests

# get请求,关闭证书验证

response = requests.get('https://www.12306.cn',verify=False)

# 在请求https时，request会进行证书的验证，如果验证失败则会抛出异常

print(response.status_code)

结果：显示有warning

关闭证书验证后，怎么消除waring：

# 导入urllib3函数

from requests.packages import urllib3

# 导入requests模块

import requests

# 消除警告

urllib3.disable_warnings()

# get请求

response = requests.get('https://www.12306.cn', verify=False)

# 返回状态代码

print(response.status_code)

结果：200

python爬虫之requests的高级使用的更多相关文章

Python爬虫Urllib库的高级用法
Python爬虫Urllib库的高级用法设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Head ...
孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块
孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块 (完整学习过程屏幕记录视频地址在文末) 从今天起开始正式学习Python的爬虫. 今天已经初步了解了两个主要的模块: ...
Python爬虫练习(requests模块)
Python爬虫练习(requests模块) 关注公众号"轻松学编程"了解更多. 一.使用正则表达式解析页面和提取数据 1.爬取动态数据(js格式) 爬取http://fund.e ...
python爬虫之requests库
在python爬虫中,要想获取url的原网页,就要用到众所周知的强大好用的requests库,在2018年python文档年度总结中,requests库使用率排行第一,接下来就开始简单的使用reque ...
Python爬虫之requests
爬虫之requests 库的基本用法基本请求: requests库提供了http所有的基本请求方式.例如 r = requests.post("http://httpbin.org/pos ...
Python 爬虫二 requests模块
requests模块 Requests模块 get方法请求整体演示一下: import requests response = requests.get("https://www.baid ...
python爬虫之requests的基本使用
简介 Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库,Requests它会比urllib更加方便,可以节约我们大量的工作. 一 ...
python爬虫之requests库介绍(二)
一.requests基于cookie操作引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们 ...
Python爬虫之requests库介绍(一)
一:Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 ...

随机推荐

Hadoop fs 基础命令
操作hdfs的基本命令在hdfs中,路径需要用绝对路径 1. 查看根目录 hadoop fs -ls / 2. 递归查看所有文件和文件夹 -lsr等同于-ls -R hadoop fs -lsr / ...
[NodeJS] async 和 await 的本质
绝大多数nodejs程序员都会使用 async 和 await 关键字,但是极少有人能真正弄明白 async 和 await 的原理.这篇文章将从零“构建”出 async 和 await 关 ...
web安全测试（上）
前情提要: 公司的安全测试一直是安全部经理全权负责,测试部只做功能和自动化. 但是2019是公司业绩腾飞的一年,业务量越来越大了,安全部经理实在做不过来. 于是他给整个测试部培训<安全测试> ...
一文深入了解史上最强的Java堆内缓存框架Caffeine
它提供了一个近乎最佳的命中率.从性能上秒杀其他一堆进程内缓存框架,Spring5更是为了它放弃了使用多年的GuavaCache 缓存,在我们的日常开发中用的非常多,是我们应对各种性能问题支持高并发的一 ...
学习 CSS 之用 CSS 3D 实现炫酷效果
一.前言把大象关进冰箱需要几步?三步,把冰箱门打开,把大象关进去,把冰箱门关上. 用 CSS 实现 3D 效果需几步?三步,设置透视效果 perspective,改变元素载体为 preserve-3 ...
Flask 偏函数、g对象、flask-session、数据库连接池、信号、自制命令、flask-admin
目录一.偏函数二.g对象 g对象和session的区别三.flask-session 四.数据库连接池 pymsql链接数据库数据库连接池版 utils/sql.py 五.信号六.命令fla ...
HTML每日学习笔记（1）
7.15.2019 1.HTML脚本——JavaScript的嵌入使用,使 HTML 页面具有更强的动态和交互性. <script> 标签用于定义客户端脚本,比如 JavaScript. ...
Oracle 中文日期转换
中文日期转换 select to_char(to_date('07-5月-17'),'yyyy-MM-dd HH24:mi:ss') from dual
图论-完全二叉树判定-Check Completeness of a Binary Tree
2020-02-19 13:34:28 问题描述: 问题求解: 判定方式就是采用层序遍历,对于一个完全二叉树来说,访问每个非空节点之前都不能访问过null. public boolean isComp ...
从sslyze看TLS证书的点点滴滴
纵观眼下,https已经深入大街小巷,成为网络生活中不可或缺的一部分了.提到了https,我们又不得不想到TLS(SSL),而提到了TLS,我们又不得不提到一个让人捉摸不透的东西:TLS证书. 关于证 ...