Python3网络爬虫(三)：urllib.error异常

运行平台：Windows
Python版本：Python3.x
IDE：Sublime text3

转载请注明作者和出处：http://blog.csdn.net/c406495762/article/details/59488464

一.urllib.error

urllib.error可以接收有urllib.request产生的异常。urllib.error有两个方法，URLError和HTTPError。如下图所示：

URLError是OSError的一个子类，HTTPError是URLError的一个子类，服务器上HTTP的响应会返回一个状态码，根据这个HTTP状态码，我们可以知道我们的访问是否成功。例如第二个笔记中提到的200状态码，表示请求成功，再比如常见的404错误等。

1.URLError

让我们先看下URLError的异常，创建文件urllib_test06.py，编写如下代码：

# -*- coding: UTF-8 -*-

from urllib import request

from urllib import error

if __name__ == "__main__":

    #一个不存在的连接

    url = "http://www.iloveyou.com/"

    req = request.Request(url)

    try:

        response = request.urlopen(req)

        html = response.read().decode('utf-8')

        print(html)

    except error.URLError as e:

        print(e.reason)

我们可以看到如下运行结果：

2.HTTPError

再看下HTTPError异常，创建文件urllib_test07.py，编写如下代码：

# -*- coding: UTF-8 -*-

from urllib import request

from urllib import error

if __name__ == "__main__":

    #一个不存在的连接

    url = "http://www.douyu.com/Jack_Cui.html"

    req = request.Request(url)

    try:

        responese = request.urlopen(req)

        # html = responese.read()

    except error.HTTPError as e:

        print(e.code)

运行之后，我们可以看到404，这说明请求的资源没有在服务器上找到，www.douyu.com这个服务器是存在的，但是我们要查找的Jack_Cui.html资源是没有的，所以抛出404异常。

二.URLError和HTTPError混合使用

最后值得注意的一点是，如果想用HTTPError和URLError一起捕获异常，那么需要将HTTPError放在URLError的前面，因为HTTPError是URLError的一个子类。如果URLError放在前面，出现HTTP异常会先响应URLError，这样HTTPError就捕获不到错误信息了。

如果不用上面的方法，也可以使用hasattr函数判断URLError含有的属性，如果含有reason属性表明是URLError，如果含有code属性表明是HTTPError。创建文件urllib_test08.py，编写代码如下：

# -*- coding: UTF-8 -*-

from urllib import request

from urllib import error

if __name__ == "__main__":

    #一个不存在的连接

    url = "http://www.douyu.com/Jack_Cui.html"

    req = request.Request(url)

    try:

        responese = request.urlopen(req)

    except error.URLError as e:

        if hasattr(e, 'code')

            print("HTTPError")

            print(e.code)

        elif hasattr(e, 'reason')

            print("URLError")

            print(e.reason)

运行结果如下：

Python3网络爬虫(三)：urllib.error异常的更多相关文章

Python3网络爬虫：urllib.error异常
转载请注明作者和出处:http://blog.csdn.net/c406495762/article/details/59488464 一.urllib.error urllib.error可以接收有 ...
转：【Python3网络爬虫开发实战】 requests基本用法
1. 准备工作在开始之前,请确保已经正确安装好了requests库.如果没有安装,可以参考1.2.1节安装. 2. 实例引入 urllib库中的urlopen()方法实际上是以GET方式请求网页,而 ...
崔庆才Python3网络爬虫开发实战电子版书籍分享
资料下载地址: 链接:https://pan.baidu.com/s/1WV-_XHZvYIedsC1GJ1hOtw 提取码:4o94 <崔庆才Python3网络爬虫开发实战>高清中文版P ...
Python3网络爬虫开发实战PDF高清完整版免费下载|百度云盘
百度云盘:Python3网络爬虫开发实战高清完整版免费下载提取码:d03u 内容简介本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib.req ...
Python3 网络爬虫（请求库的安装）
Python3 网络爬虫(请求库的安装) 爬虫可以简单分为几步:抓取页面,分析页面和存储数据在页面爬取的过程中我们需要模拟浏览器向服务器发送请求,所以需要用到一些python库来实现HTTP的请求操 ...
《Python3 网络爬虫开发实战》开发环境配置过程中踩过的坑
<Python3 网络爬虫开发实战>学习资料:https://www.cnblogs.com/waiwai14/p/11698175.html 如何从墙内下载Android Studio: ...
《Python3 网络爬虫开发实战》学习资料
<Python3 网络爬虫开发实战> 学习资料百度网盘:https://pan.baidu.com/s/1PisddjC9e60TXlCFMgVjrQ
python3网络爬虫系统学习：第一讲基本库urllib
在python3中爬虫常用基本库为urllib以及requests 本文主要描述urllib的相关内容 urllib包含四个模块:requests——模拟发送请求 error——异常处理模块 pars ...
Python3网络爬虫（1）：利用urllib进行简单的网页抓取
1.开发环境 pycharm2017.3.3 python3.5 2.网络爬虫的定义网络爬虫,也叫网络蜘蛛(web spider),如果把互联网比喻成一个蜘蛛网,spider就是一只在网上爬来爬去的 ...

随机推荐

Linux之bash shell的学习
1.什么是bash shell bash 是Bourne Again Shell的简称,是从unix系统中的sh发展而来,是用户和偶Linux内核交互的工具,用户通过bash操作内核完成系统的使用和 ...
jsoup获取网页属性
package com.open1111.jsoup; import org.apache.http.HttpEntity;import org.apache.http.client.methods. ...
python爬虫之路——正则表达式初识
正则表达式:是一个特殊的符号系列,检查字符串是否与指定模式匹配. python中的re模块拥有全部的正则表达式功能. 判断字符: 类型: 数目:有无: 个数:单值区间离散判 ...
method 'redisConnectionFactory' threw exception; nested exception is java.lang.NoClassDefFoundError
spring boot 整合redis是报了如下错误 org.springframework.beans.factory.UnsatisfiedDependencyException: Error c ...
在CesiumVR基础上实现3D左右立体视觉
整体思路在VR模块的基础上调整视差,使其随距离发生变化: 左右分屏时,需要将左右屏的横向进行1/2压缩:这是因为3D-TV在对左右格式影像进行合并时,会进行拉伸: 左屏幕的相机相对于原来的(右屏)相 ...
Android（java）学习笔记110：Java中操作文件的类介绍（File + IO流）
1.File类:对硬盘上的文件和目录进行操作的类. File类是文件和目录路径名抽象表现形式构造函数: 1) File(String pathname) Creat ...
Win10开机启动项
键盘输入:win+r 输入命令:shell:startup
mtDNA|ctDNA|cpDNA|
5.9细胞器基因组是编码细胞器蛋白质的环状DNA分子细胞器中除真核细胞线粒体DNA(mtDNA)是线性的外,都是环状分子,比如叶绿体DNA(ctDNA,cpDNA).因为单个细胞器有几套不同拷贝的细 ...
python 产生随机数
Python中的random模块用于生成随机数.下面介绍一下random模块中最常用的几个函数. random.random random.random()用于生成一个0到1的随机符点数: 0 < ...
伪基站SSRP
伪基站的基本构成包括一台发射主机.一台笔记本电脑.一根天线.一部手机和电源.其中,手机用来测得频点,即某个区域运营商正规基站的频点,然后再把频点和短信内容输入到电脑安装好的程序,通过发射主机和天线进行 ...

Python3网络爬虫(三)：urllib.error异常

Python3网络爬虫(三)：urllib.error异常的更多相关文章

随机推荐

热门专题