[Python] - 使用chardet检查网页编码格式时发现的问题

最近在使用chardet检查网页编码格式时发现如下问题：

用urllib打开网页再检查编码格式和用urllib2打开网页检查编码格式结果不一样，所以urllib2打开可能导致问题，需要关注。

查看了相关的文章，点这里（需FQ）。果然发现urllib与urllib2在很多时候是需要一起使用的。

测试过程如下：

1. 使用urllib2打开网页，检查编码格式。

结果如下，结果中出现了新浪网的字符编码格式为None的情况：

2. 使用urllib打开url，检查chardet的检查的编码结果。发现如果用urllib则不会出现检查不到编码格式的问题。

运行的结果中，所有URL的字符编码都侦测到了，结果如下：

分析原因是因为：

urllib2不再解压被gzip的页面信息，所以无法检测到被压缩后的页面编码格式了。

在用urllib2和chardet配合检查网页编码格式的时候需要先判断页面是否被压缩过，如果压缩过，先进行gzip解压的工作。

另外，根据实际使用情况得出的结论是，最好不要将urllib与urllib2混用，否则会导致很多编码乱码的隐患。

[Python] - 使用chardet检查网页编码格式时发现的问题的更多相关文章

【转载】 IE/Firefox每次刷新时自动检查网页更新，无需手动清空缓存的设置方法
[参考了别人的文章]我们做技术,经常在写页面的时候需要多次刷新测试,可是浏览器都有自己的缓存机制,一般CSS和图片都会被缓存在本地,这样我们修改的CSS就看不到效果了,每次都去清空缓存,再刷新看效 ...
IE/Firefox每次刷新时自动检查网页更新，无需手动清空缓存的设置方法
浏览器都有自己的缓存机制,一般CSS和图片都会被缓存在本地,这样我们修改的CSS就看不到效果了,每次都去清空缓存,再刷新看效果,这样操作太麻烦了.在IE下我们可以直接去修改internet选项/ ...
使用Sublime编写HTML页面时发现，虽然已经设置好了UTF-8的编码格式，但却发现HTML页面的汉字仍然是乱码。
相信有些同学在使用Sublime编写HTML页面时发现,虽然已经设置好了UTF-8的编码格式,但却发现HTML页面的汉字仍然是乱码吧.我今天就遇到了这样的问题. 第一步:重新设置一下你的meta,设置 ...
转检查rac服务时，发现ons服务offline
检查rac服务时,发现ons服务offline 时间:2014-12-23 11:17:37 作者:solgle 来源:www.solgle.com 查看:4075 评论:0 ...
python实现网页登录时的rsa加密流程
对某些网站的登录包进行抓包时发现,客户端对用户名进行了加密,然后传给服务器进行校验. 使用chrome调试功能断点调试,发现网站用javascript对用户名做了rsa加密. 为了实现网站的自动登录, ...
python 解决抓取网页中的中文显示乱码问题
关于爬虫乱码有很多各式各样的问题,这里不仅是中文乱码,编码转换.还包括一些如日文.韩文 .俄文.藏文之类的乱码处理,因为解决方式是一致的,故在此统一说明. 网络爬虫出现乱码的原因源网页编码和爬取下来 ...
python 处理抓取网页乱码
python 处理抓取网页乱码问题一招鲜相信用python的人一定在抓取网页时,被编码问题弄晕过一阵前几天写了一个测试网页的小脚本,并查找是否包含指定的信息. 在html = urllib2. ...
python动态爬取网页
简介有时候,我们天真无邪的使用urllib库或Scrapy下载HTML网页时会发现,我们要提取的网页元素并不在我们下载到的HTML之中,尽管它们在浏览器里看起来唾手可得. 这说明我们想要的元素是在我 ...
Python脚本模拟登录网页之GitHub篇
1. 通过Firefox配合插件Tamper Date获取登录时客户端向服务器端提交的数据, 并且发现authenticity_token这个字段每次登录时都不一样. POSTDATA=commit= ...

随机推荐

prototype for '类名::函数名'does not match any in class'类名'
函数声明和定义参数类型必须相同．前置声明一定要放到名称空间内,代表该名称空间内的类．
【网络爬虫】【python】网络爬虫（五）：scrapy爬虫初探——爬取网页及选择器
在上一篇文章的末尾,我们创建了一个scrapy框架的爬虫项目test,现在来运行下一个简单的爬虫,看看scrapy爬取的过程是怎样的. 一.爬虫类编写(spider.py) from scrapy.s ...
location对象介绍
Location 对象 Location 对象 Location 对象包含有关当前 URL 的信息. Location 对象是 Window 对象的一个部分,可通过 window.location 属 ...
centos6.5编译安装php7，及配置与nginx通信。
一.配置编译环境 yum update && yum upgrade yum groupinstall "Development Tools" yum instal ...
2016年第七届蓝桥杯国赛试题（JavaA组）
1.结果填空 (满分19分)2.结果填空 (满分35分)3.代码填空 (满分21分)4.程序设计(满分47分)5.程序设计(满分79分)6.程序设计(满分99分) 1.阶乘位数 9的阶乘等于:3628 ...
POJ - 2349 ZOJ - 1914 Arctic Network 贪心+Kru
Arctic Network The Department of National Defence (DND) wishes to connect several northern outposts ...
JS实现页面刷新方法
下面介绍全页面刷新方法:有时候可能会用到 window.location.reload()刷新当前页面. parent.location.reload()刷新父亲对象(用于框架) opener.loc ...
【Java面试题系列】：Java基础知识常见面试题汇总第二篇
文中面试题从茫茫网海中精心筛选,如有错误,欢迎指正! 第一篇链接:[Java面试题系列]:Java基础知识常见面试题汇总第一篇 1.JDK,JRE,JVM三者之间的联系和区别你是否考虑过我们写的x ...
Unity手游之路自动寻路Navmesh之高级主题
http://blog.csdn.net/janeky/article/details/17492531 之前我们一起学习了如何使用Navmesh组件来实现最基本的角色自动寻路.今天我们再继续深入探索 ...
Solr6.7 学习笔记(01) -- 目录结构
Solr解压后的目录结构 --contrib: Solr的一些扩展 --analysis-extras: 包含一些文本分析组件及其依赖 --clustering: 包含一个用于集群搜索结果的引擎 -- ...

[Python] - 使用chardet检查网页编码格式时发现的问题

[Python] - 使用chardet检查网页编码格式时发现的问题的更多相关文章

随机推荐

热门专题