Python爬虫连载10-Requests模块、Proxy代理

一、Request模块

1.HTTP for Humans,更简洁更友好

2.继承了urllib所有的特征

3.底层使用的是urllib3

4.开源地址：https://github.com/requests/requests

5.中文文档：https://requests.readthedocs.io/zh_CN/latest/

6.先安装这个包:pip install requests

7.get请求

（1）requests.get()

（2）requests.request("get",url)

（3）可以带有headers和params参数

8.get返回内容

import requests



#两种请求

url = "http://www.baidu.com/s?"

rsp = requests.get(url)

# print(rsp.text)



#使用get请求

rsp = requests.request("GET",url)

# print(rsp.text)

#拿到的结果都是一样的



"""

使用参数headers和params来研究返回结果

"""

kw = {

    "wd":"python中文文档"

}

headers = {

    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36"

}

rsp=requests.get(url,params=kw,headers=headers)

print(rsp.text)

print("=========================")

print(rsp.content)

print("=========================")

print(rsp.url)

print(rsp.encoding)

print(rsp.status_code)

二、post

data,headers要求使用dict

import requests

from urllib import parse

import json

url = "http://www.baidu.com/s?"

data = {

    "kw":"girl"

}

# data = parse.urlencode(data).encode("utf-8")

headers = {

    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36"

}

rsp = requests.post(url,data=data,headers=headers)

print(rsp.text)

# print(rsp.json())

三、proxy代理

1.代理有可能会报错，如果使用人数多，考虑到安全问题，可能会被强行关闭

2.用户验证

（1）代理验证：可能需要HTTP basic Auth

proxy = {"http":"china:123456@192.168.1.123:458"}

#格式为   用户名：密码@代理地址：端口地址

rsp = requests.get("http://baidu.com",proxies=proxy)

（2）web客户端验证

如果遇到web客户端验证，需要添加auth=(用户名，密码）

auth = {"test",""}#授权信息

rsp = requests.get("http://www.baidu.com",auth=auth)

四、源码

Reptitle10_1_Requests.py

Reptitle10_2_Post.py

https://github.com/ruigege66/PythonReptile/blob/master/Reptitle10_1_Requests.py

https://github.com/ruigege66/PythonReptile/blob/master/Reptitle10_2_Post.py

2.CSDN：https://blog.csdn.net/weixin_44630050

3.博客园：https://www.cnblogs.com/ruigege0000/

4.欢迎关注微信公众号：傅里叶变换，个人公众号，仅用于学习交流，后台回复”礼包“，获取大数据学习资料

Python爬虫连载10-Requests模块、Proxy代理的更多相关文章

python爬虫scrapy之downloader_middleware设置proxy代理
一.背景: 小编在爬虫的时候肯定会遇到被封杀的情况,昨天爬了一个网站,刚开始是可以了,在settings的设置DEFAULT_REQUEST_HEADERS伪装自己是chrome浏览器,刚开始是可以的 ...
Python爬虫学习1: Requests模块的使用
Requests函数库是学习Python爬虫必备之一, 能够帮助我们方便地爬取. Requests: 让HTTP服务人类. 本文主要参考了其官方文档. Requests具有完备的中英文文档, 能完全满 ...
python爬虫中的requests模块
Requests: 让 HTTP 服务人类一.简介虽然Python的标准库中 urllib 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests ...
吴裕雄--天生自然python爬虫：使用requests模块的get和post方式抓取中国旅游网站和有道翻译网站翻译内容数据
import requests url = 'http://www.cntour.cn/' strhtml = requests.get(url) print(strhtml.text) URL='h ...
爬虫开发5.requests模块的cookie和代理操作
代理和cookie操作一.基于requests模块的cookie操作引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests ...
python + seleinum +phantomjs 设置headers和proxy代理
python + seleinum +phantomjs 设置headers和proxy代理最近因为工作需要使用selenium+phantomjs无头浏览器,其中遇到了一些坑,记录一下,尤 ...
爬虫中之Requests 模块的进阶
requests进阶内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个 ...
爬虫简介与requests模块
爬虫简介与requests模块一爬虫简介概述网络爬虫是一种按照一定规则,通过网页的链接地址来寻找网页的,从网站某一个页面(通常是首页)开始,读取网页的内容,找到网页中的其他链接地址,然后通过这 ...
Python爬虫与数据分析之模块：内置模块、开源模块、自定义模块
专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...

随机推荐

PHPStorm 最新版下载
2019最新版phpstorm 包含其他版下载地址 https://www.jetbrains.com/phpstorm/download/other.html
java.lang.UnsupportedOperationException: Manual close is not allowed over a Spring managed SqlSession
java.lang.UnsupportedOperationException: Manual close is not allowed over a Spring managed SqlSessio ...
[洛谷P4617] [COCI2017-2018#5] Planinarenje
Description \(Mirko\) 和 \(Slavko\) 喜欢一起去远足. \(Mirko\) 偏好攀登山峰,而 \(Slavko\) 偏爱山谷.因此每次他们登上一座山峰后,\(Slavk ...
c#实现ofd文件转图片功能（附执行程序）
前言 ofd文件的作用就是保证信息能如实的存储.传递.显示.保证ofd文件的真实性靠的是签名:ofd 的显示需要专用软件.ofd标准是新的国家标准,应用范围远不如pdf:现有浏览器不能解析ofd.支持 ...
创建dynamics CRM client-side (五) - 使用regular expression （正则表达式）来检查phone number
我们这次要使用account, 让我们首先重建一个JavaScript. 建议每个entity都创建专属的js // Converting functions to Namespace Notatio ...
Python的条件控制及循环
一.条件控制: 1.If语句的使用: Python中if语句的一般形式如下所示: 上图中: 如果 "score>=90" 为 True 将执行 "print(‘优秀 ...
MySQL拼接字符串，GROUP_CONCAT 值得拥有
上一篇文章跨表更新,看到自己写的SQL像个憨憨写了关于跨表个更新的内容.一年过的很快,文中后来的两位员工馮大和馮二也要面对无情的 KPI 考核了,他们工作干的很不错,performance ...
linux-->yii2报yii\db\Exception错
linux 中yii2 yii\db\Exception报错报错显示:Database Exception – yii\db\Exception SQLSTATE[HY000] [2002] No ...
windows系统中如何找到某程序运行的本地文件
主要通过window自带的服务功能来查询: 比如:
Selenium(七)：截图显示等待
一.显示等待(有条件等待) 常见问题: 定位明明是对的,为什么运行代码没找到定位. 定位明明是对的,找到定位了,文本信息为什么取到是空的? 分析原因: 没有处理frame 页面渲染速度比自动化测试的代 ...

Python爬虫连载10-Requests模块、Proxy代理

Python爬虫连载10-Requests模块、Proxy代理的更多相关文章

随机推荐

热门专题