python爬虫——urllib使用代理

收到粉丝私信说urllib库的教程还没写，好吧，urllib是python自带的库，没requests用着方便。本来嘛，python之禅（import this自己看）就说过，精简，效率，方便也是大家的追求。不过大家有要求，那就写一篇关于urllib的基础教程。

本文中的知识点：

get请求
使用代理
post请求

安装

urllib是python自带的，不用安装，直接import进来即可

代码样例

注意这里需要先定义opener，在打开我们要发送的request请求。返回的字符串编码用utf-8处理

import urllib.request

from urllib.parse import urlencode

opener = urllib.request.build_opener()

# 发送request请求

req = urllib.request.Request('https://www.baidu.com/')

res = opener.open(req)

# 打印response code

print(res.status)

# urllib字符串默认是bytes类型,需要转换到utf-8

print(res.read().decode('utf-8'))

运行下，结果如下图

使用代理

注意还是要模拟用户请求，加上header参数

import urllib.request

from urllib.parse import urlencode

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'}

# 代理IP,由快代理提供

proxy = '124.94.203.122:20993'

proxy_values = "%(ip)s" % {'ip': proxy}

proxies = {"http": proxy_values, "https": proxy_values}

# 设置代理

handler = urllib.request.ProxyHandler(proxies)

opener = urllib.request.build_opener(handler)

# 发送request请求

req = urllib.request.Request('https://www.baidu.com/s?ie=UTF-8&wd=ip', headers=headers)

res = opener.open(req)

# 打印response code

print(res.status)

# urllib字符串默认是bytes类型,需要转换到utf-8

print(res.read().decode('utf-8'))

运行下，结果如下。正常打开了这个网页

***

POST请求

上述的默认使用的是get请求，那要使用post加一个method参数即可。

注意method参数POST是大写，因为我的urllib源码提示得大写。不过有的同学小写也可以，大家可以自己试下。

import urllib.request

from urllib.parse import urlencode

page_url = 'https://dev.kdlapi.com/testproxy/'

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'}

# 代理IP,由快代理提供

proxy = '115.203.13.59:21216'

proxy_values = "%(ip)s" % {'ip': proxy}

proxies = {"http": proxy_values, "https": proxy_values}

# 设置代理

handler = urllib.request.ProxyHandler(proxies)

opener = urllib.request.build_opener(handler)

# 发送request post请求

data = bytes(urlencode({"info": "send post request"}), encoding="utf-8")

req = urllib.request.Request(url=page_url, headers=headers, data=data, method="POST")

res = opener.open(req)

# 打印response code

print(res.status)

# urllib字符串默认是bytes类型,需要转换到utf-8

print(res.read().decode('utf-8'))

运行下试试，post成功，如图

进阶学习：

urllib库，自己看下帮助文档或者源码吧。。。（滑稽）
代理IP的使用

python爬虫——urllib使用代理的更多相关文章

Python爬虫Urllib库的高级用法
Python爬虫Urllib库的高级用法设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Head ...
Python爬虫教程-11-proxy代理IP，隐藏地址（猫眼电影）
Python爬虫教程-11-proxy代理IP,隐藏地址(猫眼电影) ProxyHandler处理(代理服务器),使用代理IP,是爬虫的常用手段,通常使用UserAgent 伪装浏览器爬取仍然可能被网 ...
Python爬虫Urllib库的基本使用
Python爬虫Urllib库的基本使用深入理解urllib.urllib2及requests 请访问: http://www.mamicode.com/info-detail-1224080.h ...
python爬虫 urllib模块url编码处理
案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦'的页面数据) import urllib.request # 1.指定url url = 'https://www.sogou. ...
python 爬虫 urllib模块目录
python 爬虫 urllib模块介绍 python 爬虫 urllib模块 url编码处理 python 爬虫 urllib模块反爬虫机制UA python 爬虫 urllib模块发起post ...
python爬虫 - Urllib库及cookie的使用
http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...
Python 爬虫 --- urllib
对于互联网数据,Python 有很多处理网络协议的工具,urllib 是很常用的一种. 一.urllib.request,request 可以很方便的抓取 URL 内容. urllib.request ...
Python爬虫urllib模块
Python爬虫练习(urllib模块) 关注公众号"轻松学编程"了解更多. 1.获取百度首页数据流程:a.设置请求地址 b.设置请求时间 c.获取响应(对响应进行解码) ''' ...
python爬虫-urllib模块
urllib 模块是一个高级的 web 交流库,其核心功能就是模仿web浏览器等客户端,去请求相应的资源,并返回一个类文件对象.urllib 支持各种 web 协议,例如:HTTP.FTP.Gophe ...

随机推荐

python面向对象之三大特性
继承先看个简单的例子了解一下继承. class Animal: # 父类 def __init__(self, name, age, department): self.name = name se ...
H3C 多路径网络中环路产生过程（3）
2018-8-10-win10-uwp-slider-隐藏显示数值
title author date CreateTime categories win10 uwp slider 隐藏显示数值 lindexi 2018-08-10 19:17:19 +0800 20 ...
Java 9版本之后Base64Encoder和Base64Decoder无法继续使用解决办法
在项目开发过程中,因为重装系统,安装了Java10版本,发现sun.misc.Base64Encoder和sun.misc.Base64Decoder无法使用. 原因: 查看官网发现,JDK中的/li ...
jQuery 工具类函数-使用$.extend()扩展Object对象
除使用$.extend扩展工具函数外,还可以扩展原有的Object对象,在扩展对象时,两个对象将进行合并,当存在相同属性名时,后者将覆盖前者,调用格式为: $. extend (obj1,obj2,… ...
关于axios的一些封装
关于Axios的封装为何需要在封装应用场景,项目中涉及100个AJAX请求,其中: 1.其中60个需要在请求头header设置token headers: {token: token}用于权限校验 ...
indexdb开cai发keng实zhi践lu
一直在维护一个用html2canvas截图转base64保存的项目,先不说html2canvas不同版本的不同坑的问题,就说转出来的这个base64字符长度实在太大了,尤其是遇到设计出图高度达到3千多 ...
luoguP2679 子串
luoguP2679 子串个人感觉$noip$系列中挺好的一道DP题目. 题面有点难理解. 我们设$f_{i,j,k,0/1}$表示$A$串前$i$个字符,匹配$B$串前\(j\ ...
学习Java第七周
重要知识点 1.“super”的用法构造器和方法,都用关键字super指向超类,但是用的方法不一样.方法用这个关键字去执行被重载的超类中的方法 2.接口和抽象类的异同相同: 1.接口和抽象类都有抽 ...
c++ list的坑
std::list为空时调用pop_front的访问越界问题 std::list为空时调用pop_back访问越界问题所以在使用pop_front . pop_back要先判断list是否为空 st ...