urllib2 的异常错误处理

在我们用urlopen或opener.open方法发出一个请求时,如果urlopen或opener.open不能处理这个response,就产生错误。

这里主要说的是URLError和HTTPError,以及对它们的错误处理。

URLError

URLError 产生的原因主要有:

  1. 没有网络连接
  2. 服务器连接失败
  3. 找不到指定的服务器

我们可以用try except语句来捕获相应的异常。下面的例子里我们访问了一个不存在的域名:

  1. # urllib2_urlerror.py
  2. import urllib2
  3. requset = urllib2.Request('http://www.ajkfhafwjqh.com')
  4. try:
  5. urllib2.urlopen(request, timeout=5)
  6. except urllib2.URLError, err:
  7. print err

运行结果如下:

  1. <urlopen error [Errno 8] nodename nor servname provided, or not known>

urlopen error,错误代码8,错误原因是没有找到指定的服务器。

HTTPError

HTTPError是URLError的子类,我们发出一个请求时,服务器上都会对应一个response应答对象,其中它包含一个数字"响应状态码"。

如果urlopen或opener.open不能处理的,会产生一个HTTPError,对应相应的状态码,HTTP状态码表示HTTP协议所返回的响应的状态。

注意,urllib2可以为我们处理重定向的页面(也就是3开头的响应码),100-299范围的号码表示成功,所以我们只能看到400-599的错误号码。

  1. # urllib2_httperror.py
  2. import urllib2
  3. requset = urllib2.Request('http://blog.baidu.com/itcast')
  4. try:
  5. urllib2.urlopen(requset)
  6. except urllib2.HTTPError, err:
  7. print err.code
  8. print err

运行结果如下:

  1. 404
  2. HTTP Error 404: Not Found

HTTP Error,错误代号是404,错误原因是Not Found,说明服务器无法找到被请求的页面。

通常产生这种错误的,要么url不对,要么ip被封。

改进版

由于HTTPError的父类是URLError,所以父类的异常应当写到子类异常的后面,所以上述的代码可以这么改写:

  1. # urllib2_botherror.py
  2. import urllib2
  3. requset = urllib2.Request('http://blog.baidu.com/itcast')
  4. try:
  5. urllib2.urlopen(requset)
  6. except urllib2.HTTPError, err:
  7. print err.code
  8. except urllib2.URLError, err:
  9. print err
  10. else:
  11. print "Good Job"

运行结果如下:

  1. 404
这样我们就可以做到,首先捕获子类的异常,如果子类捕获不到,那么可以捕获父类的异常。

HTTP响应状态码参考:

  1. 1xx:信息
  2. 100 Continue
  3. 服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求。
  4. 101 Switching Protocols
  5. 服务器转换协议:服务器将遵从客户的请求转换到另外一种协议。
  6. 2xx:成功
  7. 200 OK
  8. 请求成功(其后是对GETPOST请求的应答文档)
  9. 201 Created
  10. 请求被创建完成,同时新的资源被创建。
  11. 202 Accepted
  12. 供处理的请求已被接受,但是处理未完成。
  13. 203 Non-authoritative Information
  14. 文档已经正常地返回,但一些应答头可能不正确,因为使用的是文档的拷贝。
  15. 204 No Content
  16. 没有新文档。浏览器应该继续显示原来的文档。如果用户定期地刷新页面,而Servlet可以确定用户文档足够新,这个状态代码是很有用的。
  17. 205 Reset Content
  18. 没有新文档。但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容。
  19. 206 Partial Content
  20. 客户发送了一个带有Range头的GET请求,服务器完成了它。
  21. 3xx:重定向
  22. 300 Multiple Choices
  23. 多重选择。链接列表。用户可以选择某链接到达目的地。最多允许五个地址。
  24. 301 Moved Permanently
  25. 所请求的页面已经转移至新的url
  26. 302 Moved Temporarily
  27. 所请求的页面已经临时转移至新的url
  28. 303 See Other
  29. 所请求的页面可在别的url下被找到。
  30. 304 Not Modified
  31. 未按预期修改文档。客户端有缓冲的文档并发出了一个条件性的请求(一般是提供If-Modified-Since头表示客户只想比指定日期更新的文档)。服务器告诉客户,原来缓冲的文档还可以继续使用。
  32. 305 Use Proxy
  33. 客户请求的文档应该通过Location头所指明的代理服务器提取。
  34. 306 Unused
  35. 此代码被用于前一版本。目前已不再使用,但是代码依然被保留。
  36. 307 Temporary Redirect
  37. 被请求的页面已经临时移至新的url
  38. 4xx:客户端错误
  39. 400 Bad Request
  40. 服务器未能理解请求。
  41. 401 Unauthorized
  42. 被请求的页面需要用户名和密码。
  43. 401.1
  44. 登录失败。
  45. 401.2
  46. 服务器配置导致登录失败。
  47. 401.3
  48. 由于 ACL 对资源的限制而未获得授权。
  49. 401.4
  50. 筛选器授权失败。
  51. 401.5
  52. ISAPI/CGI 应用程序授权失败。
  53. 401.7
  54. 访问被 Web 服务器上的 URL 授权策略拒绝。这个错误代码为 IIS 6.0 所专用。
  55. 402 Payment Required
  56. 此代码尚无法使用。
  57. 403 Forbidden
  58. 对被请求页面的访问被禁止。
  59. 403.1
  60. 执行访问被禁止。
  61. 403.2
  62. 读访问被禁止。
  63. 403.3
  64. 写访问被禁止。
  65. 403.4
  66. 要求 SSL
  67. 403.5
  68. 要求 SSL 128
  69. 403.6
  70. IP 地址被拒绝。
  71. 403.7
  72. 要求客户端证书。
  73. 403.8
  74. 站点访问被拒绝。
  75. 403.9
  76. 用户数过多。
  77. 403.10
  78. 配置无效。
  79. 403.11
  80. 密码更改。
  81. 403.12
  82. 拒绝访问映射表。
  83. 403.13
  84. 客户端证书被吊销。
  85. 403.14
  86. 拒绝目录列表。
  87. 403.15
  88. 超出客户端访问许可。
  89. 403.16
  90. 客户端证书不受信任或无效。
  91. 403.17
  92. 客户端证书已过期或尚未生效。
  93. 403.18
  94. 在当前的应用程序池中不能执行所请求的 URL。这个错误代码为 IIS 6.0 所专用。
  95. 403.19
  96. 不能为这个应用程序池中的客户端执行 CGI。这个错误代码为 IIS 6.0 所专用。
  97. 403.20
  98. Passport 登录失败。这个错误代码为 IIS 6.0 所专用。
  99. 404 Not Found
  100. 服务器无法找到被请求的页面。
  101. 404.0
  102. 没有找到文件或目录。
  103. 404.1
  104. 无法在所请求的端口上访问 Web 站点。
  105. 404.2
  106. Web 服务扩展锁定策略阻止本请求。
  107. 404.3
  108. MIME 映射策略阻止本请求。
  109. 405 Method Not Allowed
  110. 请求中指定的方法不被允许。
  111. 406 Not Acceptable
  112. 服务器生成的响应无法被客户端所接受。
  113. 407 Proxy Authentication Required
  114. 用户必须首先使用代理服务器进行验证,这样请求才会被处理。
  115. 408 Request Timeout
  116. 请求超出了服务器的等待时间。
  117. 409 Conflict
  118. 由于冲突,请求无法被完成。
  119. 410 Gone
  120. 被请求的页面不可用。
  121. 411 Length Required
  122. "Content-Length" 未被定义。如果无此内容,服务器不会接受请求。
  123. 412 Precondition Failed
  124. 请求中的前提条件被服务器评估为失败。
  125. 413 Request Entity Too Large
  126. 由于所请求的实体的太大,服务器不会接受请求。
  127. 414 Request-url Too Long
  128. 由于url太长,服务器不会接受请求。当post请求被转换为带有很长的查询信息的get请求时,就会发生这种情况。
  129. 415 Unsupported Media Type
  130. 由于媒介类型不被支持,服务器不会接受请求。
  131. 416 Requested Range Not Satisfiable
  132. 服务器不能满足客户在请求中指定的Range头。
  133. 417 Expectation Failed
  134. 执行失败。
  135. 423
  136. 锁定的错误。
  137. 5xx:服务器错误
  138. 500 Internal Server Error
  139. 请求未完成。服务器遇到不可预知的情况。
  140. 500.12
  141. 应用程序正忙于在 Web 服务器上重新启动。
  142. 500.13
  143. Web 服务器太忙。
  144. 500.15
  145. 不允许直接请求 Global.asa
  146. 500.16
  147. UNC 授权凭据不正确。这个错误代码为 IIS 6.0 所专用。
  148. 500.18
  149. URL 授权存储不能打开。这个错误代码为 IIS 6.0 所专用。
  150. 500.100
  151. 内部 ASP 错误。
  152. 501 Not Implemented
  153. 请求未完成。服务器不支持所请求的功能。
  154. 502 Bad Gateway
  155. 请求未完成。服务器从上游服务器收到一个无效的响应。
  156. 502.1
  157. CGI 应用程序超时。 ·
  158. 502.2
  159. CGI 应用程序出错。
  160. 503 Service Unavailable
  161. 请求未完成。服务器临时过载或当机。
  162. 504 Gateway Timeout
  163. 网关超时。
  164. 505 HTTP Version Not Supported
  165. 服务器不支持请求中指明的HTTP协议版本
 

URLError与HTTPError的更多相关文章

  1. python爬虫(七)_urllib2:urlerror和httperror

    urllib2的异常错误处理 在我们用urlopen或opener.open方法发出一个请求时,如果urlopen或opener.open不能处理这个response,就产生错误. 这里主要说的是UR ...

  2. python_urllib2:urlerror和httperror

    urllib2的异常错误处理 在我们用urlopen或opener.open方法发出一个请求时,如果urlopen或opener.open不能处理这个response,就产生错误. 这里主要说的是UR ...

  3. 爬虫urllib2 的异常错误处理URLError和HTTPError

    urllib2 的异常错误处理 在我们用urlopen或opener.open方法发出一个请求时,如果urlopen或opener.open不能处理这个response,就产生错误. 这里主要说的是U ...

  4. python异常处理URLError,HTTPError,Wrapping,

    们在使用爬虫来抓取网页内容的时候,HTTP异常是必须要注意的一项,所以本文,我们来详细探寻一下HTTP异常处理的相关内容,通过一些具体的实例来分析一下,非常的简单,但是却很实用.   先来说一说HTT ...

  5. Python爬虫入门:URLError异常处理

    大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理. 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的 ...

  6. Python爬虫基础之UrlError

    一.urllib.error python的urllib.error模块主要是应对urllib.request在网络请求过程中出现的异常而定义的异常处理类.主要有URLError和HTTPError两 ...

  7. Python爬虫4-URLError与HTTPError

    GitHub代码练习地址:URLError:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac06_URLError.py ...

  8. Python2.x爬虫入门之URLError异常处理

    大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理. 1.URLError 首先解释下URLError可能产生的原因: (1)网络无连接,即本机无法上网 (2)连 ...

  9. 5.Python爬虫入门五之URLError异常处理

    大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理. 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的 ...

随机推荐

  1. Vijos 1002 过河 dp + 思维

    https://www.vijos.org/p/1002 设dp[i]表示跳到了第i个点,需要的最小的步数. 所以复杂度O(L * T), 不行 注意到T最大是10, 所以dp[i]最多只由10项递推 ...

  2. 牛客网Java刷题知识点之面向对象java的四大特性(抽象、封装、继承、多态)

    不多说,直接上干货! 面向对象java的四大特性之抽象 抽象就是有点模糊的意思,还没确定好的意思. 就比如,要定义一个方法和类.但还没确定怎么去实现它的具体一点的子方法,那我就可以用抽象类或接口.具体 ...

  3. 项目打包发布到tomcat中,中文出现乱码

    先吐槽一下,花了我3个小时,心累 本地运行正常,发布时maven插件里要加utf-8编码 https://blog.csdn.net/testcs_dn/article/details/4558379 ...

  4. DialogHelper

    //require ScrollHelper.js function DialogHelper() { var _this = this; var doc = window.document; _th ...

  5. oo第三单元总结

    JML梳理 1. JM语法一般结构 public instance //jml中操作数据,并不要求实现 public invariant //不变式 public constraint //约束 no ...

  6. 【复习笔记】CSS基础

    外观 color:rgba(255,255,255,1),a表示alpha,透明度值0~1 font-family:字体1,字体2,字体3;确保某字体不存在时自动选择下一个,最好使用字体的英文名称保证 ...

  7. iOS 应用架构 (三)

    iOS 客户端应用架构看似简单,但实际上要考虑的事情不少.本文作者将以系列文章的形式来回答 iOS 应用架构中的种种问题,本文是其中的第二篇,主要讲 View 层的组织和调用方案.下篇主要讨论做 Vi ...

  8. uvm_reg_map——寄存器模型(八)

    所有的寄存器都需要地址,都需要加入到地址列表中 //-------------------------------------------------------------------------- ...

  9. JavaScript_2_实现

    1. HTML中的脚本必须位于<script>与</script>标签之间 JavaScript是所有现代浏览器以及HTML5中的默认脚本语言 2. 脚本可被放置在HTML页面 ...

  10. Mac OS X El Capitan系统完整性保护System Integrity Protection (SIP)

    http://blog.csdn.net/yulimin/article/details/49992031 引言:前段时间经历了XCode编译器代码被注入的事件后,这次 Mac OS X El Cap ...