目录

Python2.x中

urllib和urllib2

常用方法和类

Python3.x中

urllib

requests


Python2.x中

urllib和urllib2

urllib 和 urllib2 是 python2.x 自带的模块,提供了一系列用于操作URL的功能。

urllib 和 urllib2 都是接受URL请求的相关模块,但是urllib2可以接受一个Request类的实例来设置URL请求的 headers,urllib 仅可以接受URL。这意味着,urllib不可以伪装你的User Agent 字符串等。

但是 urllib 提供 urlencode 方法用来对数据进行url编码,而 urllib2 没有,所以 urllib 经常和 urllib2 一起使用。

常用方法和类

urllib2.urlopen( url  [, data]  [, timeout] )

urlopen方法是urllib2模块最常用也最简单的方法,它打开URL网址。调用urlopen函数对请求的url返回一个response对象。这个response类似于一个file对象,所以用.read()函数可以操作这个response对象

  • url 参数可以是一个字符串 url 或者是一个Request对象。url 必须是 http:// 的格式
  • 对于可选参数 data,表示以 post 方式提交到 url 的数据。不填则为 get 方式提交
  • 对于可选的参数 timeout,阻塞操作以秒为单位,如果没有指定,将使用设置的全局默认timeout值。
import urllib2

#设置代理
proxies={"http":"http://127.0.0.1:8080"}
proxy_s=urllib2.ProxyHandler(proxies)
opener=urllib2.build_opener(proxy_s)
urllib2.install_opener(opener) response = urllib2.urlopen('http://python.org/',timeout=3) #超时时间3秒
html = response.read()

urllib2.urlopen( urllib2.Request   [,timeout])

  • urllib2.Request表示的是一个urllib2.Request对象
  • 对于可选的参数 timeout,阻塞操作以秒为单位,如果没有指定,将使用设置的全局默认timeout值

urlopen方法也可通过建立了一个Request对象来明确指明想要获取的url。

import urllib2
req = urllib2.Request('http://python.org/')
response = urllib2.urlopen(req,timeout=3)
the_page = response.read()

这里用到了urllib2.Request 类,对于上例,我们只通过了URL实例化了Request类的对象,其实Request类还有其他的参数 。

class urllib2.Request(url  [, data]  [, headers]  [, origin_req_host]  [, unverifiable])

  • url 参数可以是一个字符串 url 或者是一个Request对象。url 必须是 http:// 的格式
  • 对于可选参数data,data 是一个字符串,指定额外的数据发送到服务器,当请求含有data参数时,HTTP的请求为POST,而不是GET。而data数据需要先进行URL编码处理,这就需要urllib.urlencode()函数了
  • 可选参数headers是字典类型,头字典可以作为参数在request时直接传入,也可以把每个键和值作为参数调用add_header()方法来添加。
  • 可选参数origin_req_host是RFC2965定义的源交互的request-host。默认的取值是cookielib.request_host(self)。这是由用户发起的原始请求的主机名或IP地址。例如,如果请求的是一个HTML文档中的图像,这应该是包含该图像的页面请求的request-host。
  • 可选参数unverifiable代表请求是否是无法验证的,它也是由RFC2965定义的。默认值为false。一个无法验证的请求是,其用户的URL没有足够的权限来被接受。例如,如果请求的是在HTML文档中的图像,但是用户没有自动抓取图像的权限,unverifiable的值就应该是true。
import urllib
import urllib2
requrl = 'http://www.python.org/'
header = { 'User-Agent' : 'Mozilla/4.0 compatible; MSIE 5.5; Windows NT',
'Referer' : 'http://www.baidu.com/login.php'}
values = {'name': 'Tom',
'sex' : 'Man',
'id' : '10' }
data = urllib.urlencode(values) #对数据进行URL编码处理
req = urllib2.Request(url=requrl, data=data,headers=header)
response = urllib2.urlopen(req)
the_page = response.read() ##还可以使用add_header方法添加
req = urllib2.Request(url=requrl,data=data,headers)
req.add_header('Referer', 'http://www.python.org/')
req.add_header('User-Agent','Mozilla/4.0 compatible; MSIE 5.5; Windows NT')
response = urllib2.urlopen(req)
the_page = response.read()

python2.X环境,使用urllib和urllib2进行发包的相关文章:Python脚本自动化破解大白鲨摄像头(Shodan)

Python3.x中

urllib

在python3.x中,把 http 相关的所有包打包成了2个包:http 和  urllib 。也就是说urllib和urllib2合成了一个urllib包

http 会处理所有客户端--服务器http请求的具体细节,其中:

  • client 会处理客户端的部分
  • server 会协助你编写Python web服务器程序
  • cookies 和cookiejar会处理cookie,cookie可以在请求中存储数据

urllib 是基于 http 的高层库,它有以下三个主要功能:

  • reques t处理客户端的请求
  • response 处理服务端的响应
  • parse 会解析url

常见的类和方法

request.urlopen(url [, data] [, timeout])

参数选项和python2.x中的 urllib.urlopen 一样

from urllib import request

response = request.urlopen('http://python.org/')
html = response.read()

request.urlopen( request.Request )

参数选项和python2.x中的 urllib.urlopen 一样

from urllib import request

req = request.Request('http://python.org/')
response = request.urlopen(req)
the_page = response.read()

自定义 headers 和 data

from urllib import parse
from urllib import request url = 'http://www.someserver.com/cgi-bin/register.cgi'
headers = { 'Host': '192.168.153.130',
'User-Agent' : 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
'Referer' : 'http://www.python.org/',
'Accept' : '*/*' }
values = {'name': 'Tom',
'sex' : 'Man',
'id' : '10' }
data = urllib.parse.urlencode(values)
req = urllib.request.Request(url, data)
response = urllib.request.urlopen(req)
the_page = response.read()
print(the_page.decode("utf8")) urllib中进行URL编码和解码还可以使用quote() 和 unquote()函数
a=urllib.parse.quote("hello,word") #将字符串进行编码
b=urllib.parse.unquote(a) #将字符串进行解码

requests

而requests库则是非常优秀的第三方库,它使用 Apache2 Licensed 许可证的 HTTP 库。Requests 使用的是 urllib(python3.x中的urllib),因此继承了它的所有特性。Requests 支持 HTTP 连接保持和连接池,支持使用 cookie 保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。现代、国际化、人性化

requests模块中可以有很多种请求网页的方式

  • requests.get('http://www.baidu.com')
  • requests.post('http://www.baidu.com')
  • requests.put('http://www.baidu.com')
  • requests.delete('http://www.baidu.com')
  • requests.head('http://www.baidu.com')
  • requests.options(http://www.baidu.com')
import requests

headers = { 'Host': '192.168.153.130',
'User-Agent' : 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
'Referer' : 'http://www.python.org/',
'Accept' : '*/*' }
values = {'name': 'Tom',
'sex' : 'Man',
'id' : '10' }
proxie={"http":"http://127.0.0.1:8080"} #设置代理 res=requests.get('http://www.baidu.com', data=values,headers=headers,timeout=0.1,proxies=proxie) res.status_code ##状态码
res.url ##请求的url
res.request.headers ##请求头信息,返回的是一个字典对象,不修改的话,默认是python的请求头
res.headers ##响应头信息,返回的是一个字典对象
responce.headers['Content-Type'] #查看响应头的具体部分
res.cookies ##cookie信息,返回的是一个字典对象
res.text ##响应内容的字符串形式,即返回的页面内容
res.content ##响应内容的二进制形式
res.encoding='utf-8' ##设置响应的编码
res.apparent_encoding ##从内容中分析出的响应内容编码方式(备选编码方式)

相关文章:Python3——requests模块详解

Python2中的urllib、urllib2和 Python3中的urllib、requests的更多相关文章

  1. python2中的unicode()函数在python3中会报错:

    python2中的unicode()函数在python3中会报错:NameError: name 'unicode' is not defined There is no such name in P ...

  2. python接口自动化测试二十七:密码MD5加密 ''' MD5加密 ''' # 由于MD5模块在python3中被移除 # 在python3中使用hashlib模块进行md5操作 import hashlib # 待加密信息 str = 'asdas89799,.//plrmf' # 创建md5对象 hl = hashlib.md5() # Tips # 此处必须声明encode # 若写法为

    python接口自动化测试二十七:密码MD5加密   ''' MD5加密 '''# 由于MD5模块在python3中被移除# 在python3中使用hashlib模块进行md5操作import has ...

  3. 详解:Python2中的urllib、urllib2与Python3中的urllib以及第三方模块requests

    在python2中,urllib和urllib2都是接受URL请求的相关模块,但是提供了不同的功能.两个最显著的不同如下: 1.urllib2可以接受一个Request类的实例来设置URL请求的hea ...

  4. Python2中input()、raw_input()和Python3中input()

    听了ALEX的某节课,说input()和raw_input()函数在Python2中没有区别,现在来探讨一下Python2中的input().raw_input()函数和Pyhont3中的input( ...

  5. 常见的爬虫分析库(1)-Python3中Urllib库基本使用

    原文来自:https://www.cnblogs.com/0bug/p/8893677.html 什么是Urllib? Python内置的HTTP请求库 urllib.request          ...

  6. Python3中Urllib库基本使用

    什么是Urllib? Python内置的HTTP请求库 urllib.request          请求模块 urllib.error              异常处理模块 urllib.par ...

  7. Python3中的新特性(1)——新的语言特性

    1.源代码编码和标识符         Python3假定源代码使用UTF-8编码.另外,关于标识符中哪些字符是合法的规则也放宽了.特别是,标识符可以包含代码点为U+0080及以上的任意有效Unico ...

  8. python3 中的reload(sys)和sys.setdefaultencoding('utf-8')

    通常我们为了防止出现乱码会进行一下操作 import sys reload(sys) sys.setdefaultencoding('utf-8') 但这是python2的写法,但是在python3中 ...

  9. Djang1.8+Python2.0迁移到Django2.0+Python3.6注意事项(转)

    Djang1.8+Python2.0迁移到Django2.0+Python3.6注意事项 参考:https://blog.csdn.net/weixin_40475396/article/detail ...

随机推荐

  1. 优化自动化测试流程,使用 flask 开发一个 toy jenkins工具

    1.自动化 某一天你入职了一家高大上的科技公司,开心的做着软件测试的工作,每天点点点,下班就走,晚上陪女朋友玩王者,生活很惬意. 但是美好时光一般不长,这种生活很快被女主管打破.为了提升公司测试效率, ...

  2. Mysql被黑客攻击了?一定要注意一点,不要关闭mysql服务

    因为mysql没有关闭的情况,可以从缓存里面获取到数据,如果关闭了只能从文件里面去获取数据了,会大大加大恢复难度

  3. python基础学习之函数进阶【匿名函数、作用域关系、闭包、递归】

    匿名函数 lambda的用法: lambda x:x+1 解释,同等于以下函数 def test(x): return x+1 因为没有函数名,所以称为匿名函数 只适用于简易的逻辑,复杂逻辑无法实现 ...

  4. Ignatius and the Princess III HDU - 1028

    题目传送门:https://vjudge.net/problem/HDU-1028 思路:整数拆分构造母函数的模板题 1 //#include<bits/stdc++.h> 2 #incl ...

  5. Java 操作PPT数字签名(一):添加、检测、删除签名

    本文简要概述如何通过Java程序来处理PPT中的数字签名,文章主要分三个部分来介绍,即数字签名的添加.验证以及删除. 基本操作思路: 1. 添加签名:[加载PPT文档]→[添加签名]→[保存文档] 2 ...

  6. pgrep - 命令

    pgrep 命令格式:pgrep [选项] [模式] 选项 含义 -d <string> 指定输出分隔符 -l PID和进程名称 -a 列出PID和完整的命令行 -v 取反 -c 统计进程 ...

  7. 【工程应用一】 多目标多角度的快速模板匹配算法(基于NCC,效果无限接近Halcon中........)

    愿意写代码的人一般都不太愿意去写文章,因为代码方面的艺术和文字中的美学往往很难兼得,两者都兼得的人通常都已经被西方极乐世界所收罗,我也是只喜欢写代码,让那些字母组成美妙的歌曲,然后自我沉浸在其中自得其 ...

  8. Python异步asyncio快速实践模版

    只是参考快速跑起来模版,细节或者封装流畅使用需要详细阅读aiohttp文档 1 import asyncio 2 3 async def foo(): 4 await print('bar') 5 6 ...

  9. $(( )) 与 $( ) 还有${ } 差在哪?-- Shell十三问<第八问>

    $(( )) 与 \(( ) 还有\){ } 差在哪?-- Shell十三问<第八问> 我们上一章介绍了 ( ) 与 { } 的不同,这次让我们扩展一下,看看更多的变化:$( ) 与 \( ...

  10. 全网最详细的Linux命令系列-ls命令

    Linux开始必须要会的命令当属ls,在日常工作中用到ls命令时的频率是很多的,作为一个初学者,可能我只会或者顶多ls -l两种用法.但是ls其实是一个非常实用的指令,ls命令就是list的缩写,ls ...