python读取文件解码失败

python2.7 urllib2 抓取新浪乱码

中的：

报错的异常是
UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequence

此问题，还是很具有代表性的，此处，专门整理如下：

【Python中如何处理UnicodeDecodeError和UnicodeEncodeError】

简答：

1.仔细分析错误的类型

2.搞清自己处理的字符串是什么类型的

3.然后换用这种的字符编码去编码或解码

详解：

以上面的错误：

UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequence

为例，去解释，如何处理这类问题：

1.仔细分析错误的类型

（1）错误是Unicode的编码还是解码

对于此处，错误是：

UnicodeDecodeError
的类型的。

此英文，对应的中文的含义，其实已经很清楚了：

Unicode的解码（Decode）出现错误（Error）了

而对于上面这句，我们可以推断出：

你当前正在处理某种编码类型的字符串
此处你要处理字符串，是想要将该字符串去解码decode，变成Unicode
但是将该字符串解码变成Unicode期间，却出错了

（2）所用的是何种编码

好的，接着看上面的错误：

‘gbk’ codec can’t decode
使得错误信息更加明显了：

你此处，要将字符串解码为Unicode，是以gbk编码的方式去解码（该字符串变成Unicode）的
但是此处通过gbk的方式，却无法解码（can’t decode ）
注：此处的codec，意思是：编解码（器），是Python内部的模块，用来编码或解码（字符串）的

（3）错误位置

bytes in position 2-3

此处的信息，后续一般也很少用到。

有时候会用于定位具体错误的位置。

此处暂且忽略。

（4）错误的细节错误类型

illegal multibyte sequence

翻译为中文为：

非法的，多字节，序列

简单说就是：

没法（解码）了。

【原因及解决办法】

好了，针对于上面所分析出来的信息：

将一个字符串，通过gbk的方式，去解码，想要获得Unicode字符串，结果出错了

我们来说说原因和解决办法：

此种错误，有几种可能：
（1）要处理的字符串本身不是gbk编码，但是你却以gbk编码去解码
比如，字符串本身是utf-8的，但是你却用gbk去解码utf-8的字符串，所以结果不用说，则必然出错

则必然会出现这类的错误，说是，用gbk的方式去解码字符串，想要获得Unicode字符串，但是结果却解码出错了

解决办法：

如果你确定当前字符串，比如抓取网页通过charset=utf-8，已经确定html的字符串是utf-8的，

则可以直接去通过utf-8去解码。

python读取文件解码失败的更多相关文章

python 读取文件时报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multib
python 读取文件时报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multib ...
python 读取文件read.csv报错 OSError: Initializing from file failed
小编在用python 读取文件read.csv的时候报了一个错误 OSError: Initializing from file failed 初始化文件失败检查了文件路径,没问题那应该是我文 ...
Python 读取文件中unicode编码转成中文显示问题
Python读取文件中的字符串已经是unicode编码,如:\u53eb\u6211,需要转换成中文时有两种方式 1.使用eval: eval("u"+"\'" ...
【python】python读取文件报错UnicodeDecodeError: 'gbk' codec can't decode byte 0xac in position 2: illegal multibyte sequence
python读取文件报错UnicodeDecodeError: 'gbk' codec can't decode byte 0xac in position 2: illegal multibyte ...
python 读取文件时报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multibyte sequence
python读取文件时提示"UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal m ...
解决 python 读取文件乱码问题（UnicodeDecodeError）
解决 python 读取文件乱码问题(UnicodeDecodeError) 确定你的文件的编码,下面的代码将以'utf-8'为例,否则会忽略编码错误导致输出乱码解决方案一 with open(r' ...
python读取文件首行和最后一行
python读取文件最后一行两种方式 1)常规方法:从前往后依次读取步骤:open打开文件. 读取文件,把文件所有行读入内存. 遍历所有行,提取指定行的数据. 优点:简单,方便缺点:当文件大了以后 ...
python操作txt文件中数据教程[3]-python读取文件夹中所有txt文件并将数据转为csv文件
python操作txt文件中数据教程[3]-python读取文件夹中所有txt文件并将数据转为csv文件觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考文献 python操作txt文件中 ...
python 读取文件时报错： UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 127: illegal multibyte sequence
UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 127: illegal multibyte sequence p ...

随机推荐

SpringBoot中使用UEditor基本配置(图文详解)
SpringBoot中使用UEditor基本配置(图文详解) 2018年03月12日 10:52:32 BigPotR 阅读数:4497 最近因工作需要,在自己研究百度的富文本编辑器UEditor ...
SpringCloud-容错处理Hystrix熔断器（五）
前言:微服务架构应用的特点就是多服务,而服务层之间通过网络进行通信,从而支撑起整个应用系统,所以,各个微服务之间不可避免的存在耦合依赖关系.但任何的服务应用实例都不可能永远的健康或网络不可能永远的都相 ...
彻底搞清楚python字符编码
在讨论python编码之前,我先了解了几种编码的由来. 一.编码类型 1.ascci码 ascci码由美国人发明,用1个字节(byte)存储英文和字符,前期用了128个,后来新加了其他欧洲国家的符号, ...
如何用python获取文件中的某一行——python小技巧
很多人有的时候只需要获取文章中的固定的一行,那么我知道这一行,我需要怎么样去获取呢可能会有人说读取这一行,如果这一行是已什么开头的就读出来, 其实还有一种办法,就是我知道文件的路径.知道我要取的行数 ...
python002
1.万恶的”+“号字符串拼接字符串中的连接符+”会开辟一个新的空间,多一个“+“就会多开辟一个空间,影响性能 2.字符串格式化 ”%S“ :字符类型 ”%D“ ”数字类型 ...
loadrunner脚本编写经验
最近写了不少loadrunner脚本,记录一下心得:1 loadrunner脚本基本可以认为就是c语言代码(loadrunner支持不同语言的脚本,默认生成的是用c语言写的脚本)2 loadrunne ...
静态构造器(static constructor)
1.定义: 静态构造函数是实现对一个类进行初始化的方法成员. 它一般用于对静态数据的初始化. 静态构造函数不能有参数,不能有修饰符而且不能被调用,当类被加载时,类的静态构造函数自动被调用. 2.特点: ...
if _ else if _ else，case，程序逻辑判断- java基础
//单个判端 if(){ } //双判端 if(){ }else{ } //多重判端 if(){ }else if(){ }else if(){ }else{ } package test1; // ...
git解决代码提交冲突
树冲突文件名修改造成的冲突,称为树冲突.比如,A同事把文件改名为A.C,B同事把同一个文件改名为B.C,那么B同事将这两个commit合并时,会产生冲突.如果最终确定用B同事的文件名,那么解决办法如下 ...
CentOS删除安装的程序
以mysql举例: 首先查询安装包: rpm -qa|grep mysql 查询到的一个结果为:mysql-community-libs-5.7.13-1.el6.x86_64 yum 删除 yum ...

python读取文件解码失败

python读取文件解码失败的更多相关文章

随机推荐

热门专题