Python 2.7.3 urllib2.urlopen 获取网页出现乱码解决方案

出现乱码的原因是，网页服务端有bug，它硬性使用使用某种特定的编码方案，而并没有按照客户端的请求头的编码要求来发送编码。

解决方案：使用chardet来猜测网页编码。

1.去chardet官网下载chardet的py源码包。

2.把chardet目录从源码包里解压到项目文件夹内。

3.通过 import chardet 来引用它，然后：

 response = None

 #尝试下载网页

 try:

     response = urllib2.urlopen("http://www.baidu.com")

 except Exception as e:

     print "错误：下载网页时遇到问题：" + str(e)

     return

 if response.code != 200:

     print "错误：访问后，返回的状态代码（Code）并不是预期值【200】，而是【" + str(response.code) + "】"

     return

 if response.msg != "OK":

     print "错误：访问后，返回的状态消息并不是预期值【OK】，而是【" + response.msg + "】"

     return

 #读取html代码

 htmlCode = None

 try:

     htmlCode = response.read()

 except Exception as e:

     print "错误：下载完毕后，从响应流里读出网页代码时遇到问题：" + str(e)

     return

 #处理网页编码

 htmlCode_encode = None

 try:

     #猜编码类型

     htmlCharsetGuess = chardet.detect(htmlCode)

     htmlCharsetEncoding = htmlCharsetGuess["encoding"]

     #解码

     htmlCode_decode = htmlCode.decode(htmlCharsetEncoding)

     #获取系统编码

     currentSystemEncoding = sys.getfilesystemencoding()

     #按系统编码，再进行编码。

     '''

         做这一步的目的是，让编码出来的东西，可以在python中进行处理

         比如:

              key = "你好"

              str = "xxxx你好yyyy"

              keyPos = str.find( key )

         如果不做再编码，这一步就可能会报错出问题

     '''

     htmlCode_encode = htmlCode_decode.encode(currentSystemEncoding)

     except Exception as e:

         print "错误：在处理网页编码时遇到问题：" + str(e)

         return

 #htmlCode_encode即为所求

 return htmlCode_encode

Python 2.7.3 urllib2.urlopen 获取网页出现乱码解决方案的更多相关文章

【真相揭秘】requests获取网页编码乱码本质
有没有被网页编码抓狂,怎么转都是乱码. 通过查看requests源代码,才发现是库本身历史原因造成的. 作者是严格http协议标准写这个库的,<HTTP权威指南>里第16章国际化里提到,如 ...
node爬虫之gbk网页中文乱码解决方案
之前在用 node 做爬虫时碰到的中文乱码问题一直没有解决,今天整理下备忘.(PS:网上一些解决方案都已经不行了) 中文乱码具体是指用 node 请求 gbk 编码的网页,无法正确获取网页中的中文(需 ...
Python获取网页Html文本
Python爬虫基础 1.获取网页文本通过urllib2包,根据url获取网页的html文本内容并返回 #coding:utf-8 import requests, json, time, re, ...
python使用urllib2抓取网页
1.使用python的库urllib2,用到urlopen和Request方法. 2.方法urlopen原形 urllib2.urlopen(url[, data][, timeout]) 其中: u ...
Python获取网页指定内容(BeautifulSoup工具的使用方法)
Python用做数据处理还是相当不错的,如果你想要做爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功能,此文中所有的功能都是基于BeautifulSoup这个包. ...
Python爬虫学习——获取网页
通过GET请求获取返回的网页,其中加入了User-agent信息,不然会抛出"HTTP Error 403: Forbidden"异常, 因为有些网站为了防止这种没有User-ag ...
有关利用python获取网页，以及KDD近几年论文标题与摘要链接
最近一直在看KDD的论文,不过,由于老师并没有什么合理的方向性,所以考虑把kdd中的大部分内容都利用python将所有标题.摘要获取下来. 还有一个原因在于,看acm上的摘要,都只显示了两行,再看多点 ...
Python爬虫学习之获取网页源码
偶然的机会,在知乎上看到一个有关爬虫的话题<利用爬虫技术能做到哪些很酷很有趣很有用的事情?>,因为强烈的好奇心和觉得会写爬虫是一件高大上的事情,所以就对爬虫产生了兴趣. 关于网络爬虫的定义 ...
Python: PySide(Qt)异步获取网页源码
学习PyQt UI编程笔记.相对PyQt来说,PySide资料为少. 此篇记录异步获取代码后,同步显示于界面窗体中,涉及线程网步,此为知识点. 直录代码: # encoding: utf-8 from ...

随机推荐

hdu4570Multi-bit Trie (间隙DP)
Problem Description IP lookup is one of the key functions of routers for packets forwarding and clas ...
【Eclipse高速发展-文章插件】google V8，对于调试Nodejs
安装的的时候能够通过 Help>Eclipse Marketplace的搜索方式安装或者 Help>Install New Software Name:googleV8 Locatio ...
JavaScript高级编程
原文地址: http://www.onlamp.com/pub/a/onlamp/2007/07/05/writing-advanced-javascript.html Web应用程 ...
2年SQL Server DBA调优方面总结
原文:2年SQL Server DBA调优方面总结 2年SQL Server DBA调优方面总结当2年dba 我觉得,有些东西需要和大家分享探讨,先书单. 书单 1.<深入解析SQL Serv ...
ContentMode 几个属性
版权声明:本文博客原创文章,博客,未经同意,不得转载.
JavaEE(19) - Web层和EJB的整合(Session Bean)
1. 通过依赖注入访问无状态Session Bean #1. EJB注入Servlet中 #2. EJB注入JSF中 2. 通过EJB引用访问有状态Session Bean 3. 在工具类中访问Ses ...
（大数据工程师学习路径）第四步 SQL基础课程----创建数据库并插入数据
一.练习内容 1.新建数据库首先,我们创建一个数据库,给它一个名字,比如“mysql_shiyan”,以后的几次实验也是对mysql_shiyan这个数据库进行操作. 语句格式为“CREATE DA ...
线程池ThreadPoolExecutor使用简介(转)
一.简介线程池类为 java.util.concurrent.ThreadPoolExecutor,常用构造方法为: ThreadPoolExecutor(int corePoolSize, int ...
java保存获取Web内容的文件
package com.mkyong; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.F ...
单点登录SSO原则的实现
单点登录SSO(Single Sign On)简单地把它是下一个在多系统环境中共存,在用户登录,不要在其他系统上的登录.这是用户第一次登录得到所有其他系统的信任. 单点登录在一个大型网站非常频繁使用, ...

Python 2.7.3 urllib2.urlopen 获取网页出现乱码解决方案

Python 2.7.3 urllib2.urlopen 获取网页出现乱码解决方案的更多相关文章

随机推荐

热门专题