┱Python中关于urllib和urllib2的问题

python3对urllib和urllib2进行了重构
主要拆分成了：
1、urllib.request
　　1、urllib.request.Request(url, data=None, headers={}, method=None)

url = r'http://www.lagou.com/zhaopin/Python/?labelWords=label'

headers = {

'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '

r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',

 'Referer': r'http://www.lagou.com/zhaopin/Python/?labelWords=label',

 'Connection': 'keep-alive'

}

req = request.Request(url, headers=headers)

page = request.urlopen(req).read()

page = page.decode('utf-8')

用来包装头部的数据：
User-Agent ：这个头部可以携带如下几条信息：浏览器名和版本号、操作系统名和版本号、默认语言
Referer：可以用来防止盗链，有一些网站图片显示来源http://***.com，就是检查Referer来鉴定的
Connection：表示连接状态，记录Session的状态。
　　2、urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
　　　　url：需要打开的网址urllib.request.urlopen('https://www.baidu.com/')

 from urllib import request

 response = request.urlopen(r'http://python.org/') # <http.client.HTTPResponse object at 0x00000000048BC908> HTTPResponse类型

page = response.read()

page = page.decode('utf-8')

#此处为何不用page.encode('utf-8')
#decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表示将gb2312编码的字符串str1转换成unicode编码。
#encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode('gb2312')，表示将unicode编码的字符串str2转换成gb2312编码。
urlopen返回对象提供方法：
read()#读取整个文件 ,
readline()#每次读取一行内容 ,
readlines()#读取整个文件所有行，保存在一个列表(list)变量中，每行作为一个元素，但读取大文件会比较占内存。
fileno()#方法返回一个整型的文件描述符(file descriptor FD 整型),可用于底层操作系统的 I/O 操作。
close() ：关闭文件
info()：返回HTTPMessage对象，表示远程服务器返回的头信息
getcode()：返回Http状态码。如果是http请求，200请求成功完成;404网址未找到
geturl()：返回请求的url

　　　　data:post提交的数据
　　　　timeout：设置网站的访问超时时间
　　3、urllib.request.ProxyHandler()

data = {

         'first': 'true',

         'pn': ,

         'kd': 'Python'

     }

proxy = request.ProxyHandler({'http': '5.22.195.215:80'})  # 设置proxy

opener = request.build_opener(proxy)  # 挂载opener

request.install_opener(opener)  # 安装opener

data = parse.urlencode(data).encode('utf-8')

age = opener.open(url, data).read()

page = page.decode('utf-8')

return page

2、urllib.urlretrieve(url[, filename[, reporthook[, data]]])：

urlretrieve方法直接将远程数据下载到本地。参数filename指定了保存到本地的路径（如果未指定该参数，urllib会生成一个临时文件来保存数据）；参数reporthook是一个回调函数，当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。我们可以利用这个回调函数来显示当前的下载进度，下面的例子会展示。参数data指post到服务器的数据。该方法返回一个包含两个元素的元组(filename, headers)，filename表示保存到本地的路径，header表示服务器的响应头。下面通过例子来演示一下这个方法的使用，这个例子将新浪首页的html抓取到本地，保存在D:/sina.html文件中，同时显示下载的进度。

def cbk(a, b, c):

  '''回调函数

  @a: 已经下载的数据块

  @b: 数据块的大小

  @c: 远程文件的大小

  '''

  per = 100.0 * a * b / c

  if per > 100:

    per = 100

  print ('%.2f%%' % per)

url = 'http://www.sina.com.cn'

local = 'd://sina.html'

urllib.urlretrieve(url, local, cbk)

3、urllib.parse
　　1、urllib.parse.urlencode()#将提交的数据encode为byte编码
4、urllib.error等几个子模块。#抛出请求错误

import urllib

from urllib import parse

from urllib import request

def get_page(url):

    headers = {

          'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '

                      r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',

         'Referer': r'http://www.lagou.com/zhaopin/Python/?labelWords=label',

          'Connection': 'keep-alive'

    }

    data = {

         'first': 'true',

         'pn': ,

         'kd': 'Python'

    }

    data = parse.urlencode(data).encode('utf-8')

    req = request.Request(url, headers=headers)

    try:

        page = request.urlopen(req, data=data).read()

        page = page.decode('utf-8')

        print(page)

    except error.HTTPError as e:

        print(e.code())

        print(e.read().decode('utf-8'))

    return page

get_page('https://www.baidu.com/')

┱Python中关于urllib和urllib2的问题的更多相关文章

详解：Python2中的urllib、urllib2与Python3中的urllib以及第三方模块requests
在python2中,urllib和urllib2都是接受URL请求的相关模块,但是提供了不同的功能.两个最显著的不同如下: 1.urllib2可以接受一个Request类的实例来设置URL请求的hea ...
python之（urllib、urllib2、lxml、Selenium+PhantomJS）爬虫
一.最近在学习网络爬虫的东西,说实话,没有怎么写过爬虫,Java里面使用的爬虫也没有怎么用过.这里主要是学习Python的时候,了解到Python爬虫的强大,和代码的简介,这里会简单的从入门看是说起, ...
Python2中的urllib、urllib2和 Python3中的urllib、requests
目录 Python2.x中 urllib和urllib2 常用方法和类 Python3.x中 urllib requests Python2.x中 urllib和urllib2 urllib 和 ur ...
python学习之----urllib与urllib2的区分
urllib 还是urllib2 ? 如果你用过Python 2.x 里的urllib2 库,可能会发现urllib2 与urllib 有些不同. 在Python 3.x 里,urllib2 改名为u ...
Python中的urllib
urllib提供了一系列URL的功能. Get urllib的request模块可以非常方便的抓取URL内容,也就是发送一个GET请求到指定的页面,然后返回HTTP响应: 例如,对豆瓣的一个URLht ...
第14.9节 Python中使用urllib.request+BeautifulSoup获取url访问的基本信息
利用urllib.request读取url文档的内容并使用BeautifulSoup解析后,可以通过一些基本的BeautifulSoup对象输出html文档的基本信息.以博文<第14.6节使用 ...
Python:urllib和urllib2的区别(转)
原文链接:http://www.cnblogs.com/yuxc/ 作为一个Python菜鸟,之前一直懵懂于urllib和urllib2,以为2是1的升级版.今天看到老外写的一篇<Python: ...
python的httplib、urllib和urllib2的区别及用
慢慢的把它们总结一下,总结就是最好的学习方法宗述首先来看一下他们的区别 urllib和urllib2 urllib 和urllib2都是接受URL请求的相关模块,但是urllib2可以接受一个Re ...
python学习笔记——urllib库中的parse
1 urllib.parse urllib 库中包含有如下内容 Package contents error parse request response robotparser 其中urllib.p ...

随机推荐

C++ 并发编程之互斥锁和条件变量的性能比较
介绍本文以最简单生产者消费者模型,通过运行程序,观察该进程的cpu使用率,来对比使用互斥锁和互斥锁+条件变量的性能比较. 本例子的生产者消费者模型,1个生产者,5个消费者. 生产者线程往队列里放 ...
JavaScript 运行机制以及Event Loop（事件循环）
一.JavaScript单线程众所周知JavaScript是一门单线程语言,也就是说,在同一时间内JS只能做一件事.为什么JavaScript不能有多个线程呢?这样不是能够提高效率吗? JavaSc ...
各IDE代码自用开头模板
Pycharm #!/usr/bin/env python # -*- coding: utf-8 -*- # @version : 1.0 # @Time : ${DATE} ${TIME} # @ ...
vue实现对语言的切换，结合vue-il8n。
1.安装vue-i18n: npm install vue-i18n 如果npm长时间无反应,或安装失败,可以换成淘宝镜像安装: cnpm install vue-i18n 2.在main.js中引用 ...
NLP（九）文本相似度问题
多个维度判别文本之间相似度情感维度 Sentiment/Emotion 感官维度 Sense 特定词的出现词频 TF 逆文本频率 IDF 构建N个M维向量,N是文档总数,M是所有文档的去重词汇量 ...
提示：unresolved import: PIL
解决方法: 1.打开Window>Preferences>PyDev>Interpreters>Python Interpreter>Forced Builtins,点击 ...
codeforces 864 E. Fire(背包+思维)
题目链接:http://codeforces.com/contest/864/problem/E 题解:这题一看就很像背包但是这有3维限制也就是说背包取得先后也会对结果有影响.所以可以考虑sort来降 ...
Codeforces Round #391 C. Felicity is Coming!
题目链接 http://codeforces.com/contest/757/problem/C 题意:给你n组数范围在1-m,可进行变换f(x)=y,就是将所有的x全变成y,最后要满足变化后每组数 ...
【Offer】[46] 【把数字翻译成字符串】
题目描述思路分析测试用例 Java代码代码链接题目描述给定一个数字,我们按照如下规则把它翻译为字符串: 0翻译成"a",1翻译成"b",..... 1 ...
【Offer】[3-1] 【找出数组中重复的数字】
题目描述思路 Java代码代码链接题目描述在一个长度为n的数组里的所有数字都在0~n-1的范围内.数组中某些数字是重复的,但不知道有几个数字重复了,也不知道每个数字重复了几次. 请找出数组中任 ...

┱Python中关于urllib和urllib2的问题

┱Python中关于urllib和urllib2的问题的更多相关文章

随机推荐

热门专题