1.0 Urllib简介

　　Urllib是python自带的标准库，无需安装，直接引用即可。urllib通常用于爬虫开发，API(应用程序编程接口)数据获取和测试。在python2和python3中，urllib在不同版本中的语法有明显的改变。

　　Python2分为urllib和urllib2，urllib2可以接收一个request对象，并以此来放置一个URL的Headers，但是urllib只接收一个URL，意味着不能伪装用户代理字符串等。urllib模块可以提供进行Urlencode的方法，该方法用于GET查询字符串的生成，urllib2不具有这样的功能。这也是urllib与　　urllib2经常在一起使用的原因。

　　由于urllib在不用的python版本上有明显的区别，在实际开发中也遇到一些尴尬的情况，其中最为主要的是版本之间的不兼容所带来的问题。

　　在python3中，urllib是一个收集几个模块来使用URL的软件包，大致具备以下功能：

urllib.request：用于打开和读取URL。
urllib.error：包含提出的例外urllib.request。
urllib.parse：用于解析URL。
urllib.robotparser：用于解析robots.txt文件。

1.1 发送请求

　　urllib.request.urlopen 的语法如下

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capth=None, cadefault=False, context=None)

参数:

url：需要访问的网站的URL地址。url格式必须完整，如 https://movie.douban.com/ 为完整的url，若url为 movie.douban.com/ 则程序运行时会提示无法识别url的提示。

data：默认值为None，urllib判断参数data是否为None从而区分请求的方式。若参数data为None，则代表请求方式为GET，反之请求方式为POST，发送POST请求，参数data以字典形式存储数据，并将参数data由字典类型转换成字节类型才能完成POST请求。

timeout：超时设置，指定阻塞操作（请求时间）的超市（如果未指定，就使用全局默认超时设置）。
cafile, capath 和 cadefault：使用参数指定一组HTTPS请求的可信CA证书，cafile应指向包含一组CA证书的单个文件：capath应指向证书文件的目录：cadefault通常使用默认值即可。
context：描述各种SSL选项的实例。

在实际使用中，常用的参数有url，data和timeout。若在爬虫中遇到证书验证，则可将证书验证直接关闭，也可以设置参数指向证书的信息和位置。相比而言，设置证书比较耗时，而且通用性不强。

当对网站发送请求时，网站会返回相应的响应内容。urlopen对象提供获取网站响应内容的方法函数，分别介绍如下：

read() , readline() , readlines() , fileno() , close()：对HTTPResponse类型数据操作。
info()：返回HTTPMessage对象，表示远程服务器返回的头信息
getcode()：返回HTTP状态码。
geturl()：返回请求的url。

下面例子用于实现urllib模块对网站发送请求并将响应内容写入文本文档，代码如下：

import urllib.request
response=urllib.request.urlopen('http://movie.douban.com',None,2)
html=response.read().decode('utf-8')
f=open('html.txt','w',encoding='utf-8')
f.write(html)
f.close()

1.2复杂的请求

python 3 Urllib 数据抓取的更多相关文章

python&php数据抓取、爬虫分析与中介，有网址案例
近期在做一个网络爬虫程序.后台使用python不定时去抓取数据.前台使用php进行展示站点是:http://se.dianfenxiang.com
python 手机App数据抓取实战二抖音用户的抓取
前言什么?你问我国庆七天假期干了什么?说出来你可能不信,我爬取了cxk坤坤的抖音粉丝数据,我也不知道我为什么这么无聊. 本文主要记录如何使用appium自动化工具实现抖音App模拟滑动,然后分析数据 ...
python 手机App数据抓取实战一
前言当前手机使用成为互联网主流,每天手机App产生大量数据,学习爬虫的人也不能只会爬取网页数据,我们需要学习如何从手机 APP 中获取数据,本文就以豆果美食为例,讲诉爬取手机App的流程环境准备 ...
python爬虫数据抓取方法汇总
概要:利用python进行web数据抓取方法和实现. 1.python进行网页数据抓取有两种方式:一种是直接依据url链接来拼接使用get方法得到内容,一种是构建post请求改变对应参数来获得web返 ...
Python爬虫工程师必学——App数据抓取实战 ✌✌
Python爬虫工程师必学——App数据抓取实战 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统 ...
吴裕雄--天生自然python学习笔记：WEB数据抓取与分析
Web 数据抓取技术具有非常巨大的应用需求及价值, 用 Python 在网页上收集数据,不仅抓取数据的操作简单, 而且其数据分析功能也十分强大. 通过 Python 的时lib 组件中的 urlpar ...
数据抓取分析（python + mongodb）
分享点干货!!! Python数据抓取分析编程模块:requests,lxml,pymongo,time,BeautifulSoup 首先获取所有产品的分类网址: def step(): try: ...
python爬虫(一)_爬虫原理和数据抓取
本篇将开始介绍Python原理,更多内容请参考:Python学习指南为什么要做爬虫著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...
Python数据抓取_BeautifulSoup模块的使用
在数据抓取的过程中,我们往往都需要对数据进行处理本篇文章我们主要来介绍python的HTML和XML的分析库 BeautifulSoup 的官方文档网站如下 https://www.crummy.c ...

随机推荐

CI 知识：Git介绍及常用操作
Git介绍 Git(读音为/gɪt/.)是一个开源的分布式版本控制系统,可以有效.高速的处理从很小到非常大的项目版本管理. Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发 ...
Loadrunner&Jemeter进行手机APP压力测试
一.loadrunner通过代理录制app脚本随着手机APP的广泛应用,手机应用的使用已占据了大量的市场份额,尤其是优秀的手机APP,动辄用户过千万过亿,对于如此庞大的用户量,我们在开发APP时,也 ...
Unix - 文件里构成一个空洞的分析
lseek函数显示地为一个打开文件设置偏移量,文件偏移量能够大于文件的当前长度,在这样的情况下.对该文件的下一次写将加长该文件.并在文件里构成一个空洞,这一点是同意的. 位于文件里但没有写过的字节都被 ...
ReSharper warns: “Static field in generic type”
http://stackoverflow.com/questions/9647641/resharper-warns-static-field-in-generic-type It's fine to ...
UVA 315 求连通图里的割点
http://acm.hust.edu.cn/vjudge/problem/viewProblem.action?id=20837 哎大白书里求割点的模板不好用啊,许多细节理解起来也好烦..还好找了 ...
bzoj2466
高斯消元+搜索很明显每个开关只能按一次,那么我们可以想到高斯消元,其实就是解异或方程组,但是最后会有一些自由元,也就是有x+y=z,x+y=z这种一样的方程就会产生自由元,那么我们爆搜自由元取值,每 ...
符号修饰与函数签名、extern “C”（转载）
转自:http://www.cnblogs.com/monotone/archive/2012/11/16/2773772.html 参考资料: <程序员的自我修养>3.5.3以及3.5. ...
Rails5 radio_button
容易错,集中记下来首先是radio button的三种形式函数名参数意义 radio_button_tag(prop, value [, opts]) prop: radio的属性 v ...
P3154 [CQOI2009]循环赛
传送门双倍经验题->这里 //minamoto #include<bits/stdc++.h> #define ll unsigned long long #define R re ...
[Swift通天遁地]一、超级工具-(7)创建一个图文并茂的笔记本程序
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★➤微信公众号:山青咏芝(shanqingyongzhi)➤博客园地址:山青咏芝(https://www.cnblogs. ...

python 3 Urllib 数据抓取

1.0 Urllib简介

Urllib是python自带的标准库，无需安装，直接引用即可。urllib通常用于爬虫开发，API(应用程序编程接口)数据获取和测试。在python2和python3中，urllib在不同版本中的语法有明显的改变。

由于urllib在不用的python版本上有明显的区别，在实际开发中也遇到一些尴尬的情况，其中最为主要的是版本之间的不兼容所带来的问题。

在python3中，urllib是一个收集几个模块来使用URL的软件包，大致具备以下功能：

urllib.request：用于打开和读取URL。

urllib.error：包含提出的例外urllib.request。

urllib.parse：用于解析URL。

urllib.robotparser：用于解析robots.txt文件。

1.1 发送请求

urllib.request.urlopen 的语法如下

参数:

url：需要访问的网站的URL地址。url格式必须完整，如 https://movie.douban.com/ 为完整的url，若url为 movie.douban.com/ 则程序运行时会提示无法识别url的提示。

1.2复杂的请求

python 3 Urllib 数据抓取的更多相关文章

随机推荐

热门专题

　　Urllib是python自带的标准库，无需安装，直接引用即可。urllib通常用于爬虫开发，API(应用程序编程接口)数据获取和测试。在python2和python3中，urllib在不同版本中的语法有明显的改变。

　　由于urllib在不用的python版本上有明显的区别，在实际开发中也遇到一些尴尬的情况，其中最为主要的是版本之间的不兼容所带来的问题。

　　在python3中，urllib是一个收集几个模块来使用URL的软件包，大致具备以下功能：

　　urllib.request.urlopen 的语法如下