python爬虫之趟雷整理

雷一：URLError

　　问题具体描述：urllib.error.URLError: <urlopen error [Errno 11004] getaddrinfo failed

 import urllib.request

 def load_message():

     url = 'http://www.baidu.com'

     request = urllib.request.Request(url)

     response = urllib.request.urlopen(request)

     response_str = response.read().decode('utf-8')

     return response.headers, request.headers, response_str

 response_header, request_header, response_data = load_message()

 print(request_header)

 print('----------------------------------------')

 print(response_header)

 print('----------------------------------------')

 print(response_data)

　　分析：报错原因为URLError，产生原因为URL，简单来说，就是URL资源无法访问或者访问不了。具体问题出在三个方向，URL本身，客户端，服务器。

　　解决办法：第一点，检查URL书写是否正确；第二点，检查客户端网络连接状态；第三点，使用URL在浏览器地址栏访问验证服务器是否存在。

　　问题具体描述：urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1045)>

 #!/usr/bin/env python

 # -*- coding=utf-8 -*-

 # Author: Snow

 import urllib.request

 def create_cookie():

     url = 'https://www.yaozh.com/member/'

     headers = {

         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko\

 Chrome/69.0.3497.92 Safari/537.36',

         'Cookie': 'think_language=zh-CN; _ga=GA1.2.179792116.1550119571; _gat=1; acw_tc=2f624a2115501195808648935e4f2de7e89205315a7c9e8934c938389d8999; _gid=GA1.2.111857803.1550119581; yaozh_logintime=1550119751; yaozh_user=692948%09snown_1; yaozh_userId=692948; yaozh_uidhas=1; acw_tc=2f624a2115501195808648935e4f2de7e89205315a7c9e8934c938389d8999; MEIQIA_VISIT_ID=1H9g97Ef1WpjYsWf4b7UlGe3wel; PHPSESSID=5itl5rejqnekb07bfrtmuvr3l6; yaozh_mylogin=1550196658; MEIQIA_VISIT_ID=1HCCOYdyjR0FalzMfFm4vYsqevT; Hm_lvt_65968db3ac154c3089d7f9a4cbb98c94=1550119570%2C1550119584%2C1550119751%2C1550196659; Hm_lpvt_65968db3ac154c3089d7f9a4cbb98c94=1550196663'

     }

     request = urllib.request.Request(url, headers=headers)

     response = urllib.request.urlopen(request)

     response_data = response.read().decode('utf-8')

     return response_data

 result = create_cookie()

 with open('cookies.html', 'w', encoding='utf-8') as f:

     f.write(result)

　　分析：问题产生原因python使用urllib.request,urlopen()打开https链接时，需要验证SSL证书，如果网站使用自签名的证书会抛出异常。

　　解决办法：第一点，使用SSL创建context验证上下文，传入urlopen()中context上下文参数；第二点，取消证书验证。

 #!/usr/bin/env python

 # -*- coding=utf-8 -*-

 # Author: Snow

 import urllib.request

 import ssl    #导入ssl模块

 def create_cookie():

     url = 'https://www.yaozh.com/member/'

     headers = {

         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko\

 Chrome/69.0.3497.92 Safari/537.36',

         'Cookie': 'think_language=zh-CN; _ga=GA1.2.179792116.1550119571; _gat=1; acw_tc=2f624a2115501195808648935e4f2de7e89205315a7c9e8934c938389d8999; _gid=GA1.2.111857803.1550119581; yaozh_logintime=1550119751; yaozh_user=692948%09snown_1; yaozh_userId=692948; yaozh_uidhas=1; acw_tc=2f624a2115501195808648935e4f2de7e89205315a7c9e8934c938389d8999; MEIQIA_VISIT_ID=1H9g97Ef1WpjYsWf4b7UlGe3wel; PHPSESSID=5itl5rejqnekb07bfrtmuvr3l6; yaozh_mylogin=1550196658; MEIQIA_VISIT_ID=1HCCOYdyjR0FalzMfFm4vYsqevT; Hm_lvt_65968db3ac154c3089d7f9a4cbb98c94=1550119570%2C1550119584%2C1550119751%2C1550196659; Hm_lpvt_65968db3ac154c3089d7f9a4cbb98c94=1550196663'

     }

     context = ssl._create_unverified_context()  # 创建验证SSL上下文

     request = urllib.request.Request(url, headers=headers)

     response = urllib.request.urlopen(request， context=context)  # 传入context参数

     response_data = response.read().decode('utf-8')

     return response_data

 result = create_cookie()

 with open('cookies.html', 'w', encoding='utf-8') as f:

     f.write(result)

 #!/usr/bin/env python

 # -*- coding=utf-8 -*-

 # Author: Snow

 import urllib.request

 import ssl

 def create_cookie():

     url = 'https://www.yaozh.com/member/'

     headers = {

         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko\

 Chrome/69.0.3497.92 Safari/537.36',

         'Cookie': 'think_language=zh-CN; _ga=GA1.2.179792116.1550119571; _gat=1; acw_tc=2f624a2115501195808648935e4f2de7e89205315a7c9e8934c938389d8999; _gid=GA1.2.111857803.1550119581; yaozh_logintime=1550119751; yaozh_user=692948%09snown_1; yaozh_userId=692948; yaozh_uidhas=1; acw_tc=2f624a2115501195808648935e4f2de7e89205315a7c9e8934c938389d8999; MEIQIA_VISIT_ID=1H9g97Ef1WpjYsWf4b7UlGe3wel; PHPSESSID=5itl5rejqnekb07bfrtmuvr3l6; yaozh_mylogin=1550196658; MEIQIA_VISIT_ID=1HCCOYdyjR0FalzMfFm4vYsqevT; Hm_lvt_65968db3ac154c3089d7f9a4cbb98c94=1550119570%2C1550119584%2C1550119751%2C1550196659; Hm_lpvt_65968db3ac154c3089d7f9a4cbb98c94=1550196663'

     }

     ssl._create_default_https_context = ssl._create_unverified_context  # 缺省context参数不做验证，取消验证ssl证书

     request = urllib.request.Request(url, headers=headers)

     response = urllib.request.urlopen(request)

     response_data = response.read().decode('utf-8')

     return response_data

 result = create_cookie()

 with open('cookies.html', 'w', encoding='utf-8') as f:

     f.write(result)

雷二：HTTPError

　　问题具体描述：urllib.error.HTTPError: HTTP Error 503: Service Temporarily Unavailable

 #!/usr/bin/env python

 # -*- coding=utf-8 -*-

 # Author: Snow

 import urllib.request

 def fee_proxy():

     url = 'https://www.xicidaili.com/nn/'

     # 付费代理IP第一种方式

     # proxy_1 = {

     #     'http': 'user_name:passswor@121.61.1.222:9999'

     # }

     # 付费代理IP第二种方式

     user_name = 'admin'

     password = ''

     proxy_ip = '121.61.1.222:9999'

     proxy_manage = urllib.request.HTTPPasswordMgrWithDefaultRealm()  # 密码管理器

     proxy_manage.add_password(None, proxy_ip, user_name, password)

     # proxy_handler = urllib.request.ProxyHandler(proxy_1)

     proxy_handler = urllib.request.ProxyBasicAuthHandler(proxy_manage)  # 代理IP验证处理器

     proxy_openner = urllib.request.build_opener(proxy_handler)

     response = proxy_openner.open(url)

     response_str = response.read().decode('utf-8')

     return response_str

 data = fee_proxy()

 print(data)

　　分析：

　　解决办法：

python爬虫之趟雷的更多相关文章

python高级—— 从趟过的坑中聊聊爬虫、反爬以及、反反爬，附送一套高级爬虫试题
前言: 时隔数月,我终于又更新博客了,然而,在这期间的粉丝数也就跟着我停更博客而涨停了,唉是的,我改了博客名,不知道为什么要改,就感觉现在这个名字看起来要洋气一点. 那么最近到底咋不更新博客了呢?说 ...
Python爬虫——城市公交、地铁站点和线路数据采集
本篇博文为博主原创,转载请注明. 城市公交.地铁数据反映了城市的公共交通,研究该数据可以挖掘城市的交通结构.路网规划.公交选址等.但是,这类数据往往掌握在特定部门中,很难获取.互联网地图上有大量的信息 ...
【Python爬虫】正则表达式与re模块
正则表达式与re模块阅读目录在线正则表达式测试常见匹配模式 re.match re.search re.findall re.compile 实战练习在线正则表达式测试 http://tool ...
[框架安装趟雷指南]Ubuntu+1060+cuda+cudnn+Keras+TH+TF+MXnet
[框架安装趟雷指南]Ubuntu+1060+cuda+cudnn+Keras+TH+TF+MXnet https://zhuanlan.zhihu.com/p/23480983 天清 9 个月前写这 ...
2019应届生，用python爬虫记录自己求职经历，分享求职中的一些坑
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http ...
Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python爬虫成长之路（一）：抓取证券之星的股票数据
获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...
python爬虫学习(7) —— 爬取你的AC代码
上一篇文章中,我们介绍了python爬虫利器--requests,并且拿HDU做了小测试. 这篇文章,我们来爬取一下自己AC的代码. 1 确定ac代码对应的页面如下图所示,我们一般情况可以通过该顺序 ...
python爬虫学习(6) —— 神器 Requests
Requests 是使用 Apache2 Licensed 许可证的 HTTP 库.用 Python 编写,真正的为人类着想. Python 标准库中的 urllib2 模块提供了你所需要的大多数 H ...

随机推荐

EZOJ #202
传送门分析我们知道选一个点的代价就是他所有出边边权的异或和由于一条边如果两个端点均选边权会异或两次变回0,所以不必担心重复的情况于是直接跑线性基即可代码 #include<bits/s ...
Django框架之数据库与ORM
浏览目录数据库的配置 ORM表模型 ORM之增(create,save) ORM之删(delete) ORM之改(update和save) ORM之查(filter,value) 一.数据库的配置 ...
php抓取网页中的内容
以下就是几种常用的用php抓取网页中的内容的方法.1.file_get_contentsPHP代码代码如下:>>>>>>>>>>>&g ...
C# JSON使用的常用技巧(二)
JSON在php里一句json_encode就可以得到在C#里我们同样也很容易的可以得到用到的类库:Newtonsoft.Json.dll 实体类: class Cat { public stri ...
编写高质量代码改善C#程序的157个建议——建议33：避免在泛型类型中声明静态成员
建议33:避免在泛型类型中声明静态成员在上一建议中,已经理解了应该将MyList<int>和MyList<string>视作两个完全不同的类型,所以,不应该将MyList&l ...
bzoj 3224/Tyvj 1728 普通平衡树(splay)
Description 您需要写一种数据结构(可参考题目标题),来维护一些数,其中需要提供以下操作:1. 插入x数2. 删除x数(若有多个相同的数,因只删除一个)3. 查询x数的排名(若有多个相同的数 ...
C#向服务器上传文件问题
最近在写服务器端web上传的接口.但一直报错,上传不上去,后来发现是在分隔符中出现的问题. 错误的写法: var boundary = "---------------" + Da ...
DateType--字符类型
--=====================================================字符集 ASCII (American Standard Code for Informa ...
JavaScript中function 之return false的理解(实例代码)
1.司空见惯代码,在某一dom节点上注册事件方法 $("#btnResponse").click(Login); $("#txtCode").keydown(R ...
《C#多线程编程实战》2.8 Barrier
不得不说,C#的同步线程的机制是真的多. 各式各样.几乎各种场景下都有可以使用的同步机制. 今天说的,就是比较有意思了. 等待的机制很简单,单纯的等待. 使用的方法我就等. 等待的东西或者内容则是你自 ...

python爬虫之趟雷

python爬虫之趟雷整理

雷一：URLError

雷二：HTTPError

python爬虫之趟雷的更多相关文章

随机推荐

热门专题