'xxx' codec can't decode byte xxx常见编码错误处理

by:授客 QQ：1033553122

测试环境

python 3.3.2

win7

问题描述

利用python文件io方法 open打开文件，读取文件时报错，提示类似如下错误：

'xxx' codec can't decode byte xxx in position xxxx

经过好一番摸索，才大致搞懂其中的来弄去脉，暂且不说原因吧，来看下笔者做的几个实验。

源代码文件大致如下：

#!/usr/bin/env python

# -*- coding:utf-8 -*-

__author__ = 'shouke'

def testfn():

str_dic_list = []

f = open('d:\\saofu-weixin.log.2016-11-08.log', 'r') # 代码行8

counter = 0

is_found= 0

for line in f:

……（做一些处理）

testfn()

实践探索

实验1

文件(saofu-weixin.log.2016-11-08.log,以下不再赘述)编码设置：ANSI格式编码

代码行8：f = open('d:\\saofu-weixin.log.2016-11-08.log', 'r')

运行报错：

UnicodeDecodeError: 'gbk' codec can't decode byte 0xac in position 4055: illegal multibyte sequence

代码行8：f = open(''d:\\saofu-weixin.log.2016-11-08.log'', 'r',encoding='utf-8')

运行报错：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb4 in position 744: invalid start byte

实验2

文件编码设置：UTF-8 无BOM格式编码

代码行8：f = open('d:\\saofu-weixin.log.2016-11-08.log', 'r')

运行报错：

UnicodeDecodeError: 'gbk' codec can't decode byte 0x81 in position 756: illegal multibyte sequence

代码行8：

f = open('d:\\saofu-weixin.log.2016-11-08.log', 'r',encoding='utf-8')

运行不报错

实验3

文件编码设置：USC-2 Big Endia格式编码、USC-2 Little Endia格式编码

代码行8：f = open('d:\\saofu-weixin.log.2016-11-08.log', 'r',encoding='utf-8')

运行报错：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xfe in position 0: invalid start byte

代码行8：f = open('d:\\saofu-weixin.log.2016-11-08.log', 'r')

运行报错：

UnicodeDecodeError: 'gbk' codec can't decode byte 0xfe in position 0: illegal multibyte sequence

实验4

文件编码设置：UTF-8格式编码

源代码文件编码设置：

# -*- coding:gbk -*-

或

# -*- coding:gb2312 -*-

或

# -*- coding:utf-8 -*-

代码行8：f = open('d:\\saofu-weixin.log.2016-11-08.log', 'r')

运行报错：

UnicodeDecodeError: 'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence

代码行：f = open('d:\\saofu-weixin.log.2016-11-08.log', 'r',encoding='utf-8')

运行不报错

原因分析

通过上述错误提示，我们可以得出结论：

1、出错了，错误类型为“UnicodeDecodeError”，大致意思是Unicode解码错误

2、具体原因是： 'xxx' codec can't decode byte xxxx in position xx,大致意思就是解码器codec用‘xxx’编码去解码位于xx位置处的xxxx字节

3、进一步细化错误为：illegal multibyte sequence（非法多字节序列）或者invalid start byte（非法的起始字符）

通过实验，我们可以得出结论：

按日志文件自身的编码打开并读取文件内容时，运行不报错。

综上结论

1、python对编码转换的处理：从一种编码到另一种编(暂且称为目标编码)的转换，python会先把目标按某种编码解码为Unicode编码，然后再转换为目标编码。

2、利用python的open打开文件时，最好显示的指定编码，即按指定编码打开文件，且该指定编码必须和被打开文件自身的编码设置保持一致，否则可能会导致解码出错，直白的说，被打开文件是什么编码，就用什么编码去打开文件进行解码。

3、python源代码文件中的注释 # -*- coding: encoding -*- 和文件解码无关，仅针对脚本文件中在内容，比如中文字符串。

附：关于源代码编码说明

默认的，python源代码文件编码被视为UTF-8编码。按那种编码方式，世界上大多数语言的字符可以同时用于字符串字面量，标识符和注释 - 尽管标准库只使用ASCII字符作为标识符，任何可移植代码应该遵循的约定。为了更恰当的展示所有这些字符，你的编辑器必须能够识别到源代码文件为UTF-8，且必须使用一种能支持文件中所有字符的字体。

我们也可以为源代码文件指定其它不同的的编码。在“#!”行之后添加如下注释语句：

# -*- coding: encoding -*-

指定编码后，源文件中的所有东西都被视为按指定编码格式编码，而非UTF-8编码。

官方原文：By default, Python source files are treated as encoded in UTF-8. In that encoding, characters of most languages in the world can be used simultaneously in string literals, identifiers and comments — although the standard library only uses ASCII characters for identifiers, a convention that any portable code should follow. To display all these characters properly, your editor must recognize that the file is UTF-8, and it must use a font that supports all the characters in the file

It is also possible to specify a different encoding for source files. In order to do this, put one more special comment line right after the #! line to define the source file encoding:

# -*- coding: encoding -*-

With that declaration, everything in the source file will be treated as having the encoding encoding instead of UTF-8

Python 'xxx' codec can't decode byte xxx常见编码错的更多相关文章

python :ascii codec can't decode byte 0xe8 in posit
python代码: slide.setAttribute("SlideName", module.slide_name) slide.setAttribute("Sli ...
python 'utf-8' codec can't decode byte 0xb8 in position 0: invalid start byte
在导入csv文件中,出现如上所示的错误,经过查阅资料,解决方法如下: 方法一: pd.read_csv(file_path, encoding='unicode_escape') 方法二: pd.re ...
django startproject xxx:报错UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 13: ordinal not in range(128)
django startproject xxx:报错UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 13: o ...
【Error】Python：UnicodeDecodeError: ‘XXX' codec can't decode bytes in position... 解决方法
错误信息: UnicodeDecodeError: ‘XXX' codec can't decode bytes in position 2-5: illegal multibyte sequence ...
'utf-8' codec can't decode byte 0xd5 in position XXX: invalid continuation byte问题
找了一下午,各种资料搜集,愣是没搜出来答案. 结果今天早上,做一个小小的改变,就整出来了... 步骤如下: 1.打开excel,全选数据 2.新建记事本,粘贴,选择脚本,更改字体: 3.新建Excel ...
Python报错UnicodeDecodeError: ascii codec can t decode byte 0xe0 ...解决方法
用命令(python setup.py install)安装webpy时候总是报错在网上搜索到的解决方法如下: 1. 这是Python 2 mimetypes的bug 2. 需要将Python2.7 ...
处理UnicodeDecodeError: ‘XXX' codec can't decode bytes in position...的问题
错误信息: UnicodeDecodeError: ‘XXX' codec can't decode bytes in position 2-5: illegal multibyte sequence ...
UnicodeDecodeError: ‘XXX' codec can't decode bytes in position X 的问题
错误信息:UnicodeDecodeError: ‘XXX' codec can't decode bytes in position 2-5: illegal multibyte sequence ...
【Python】【解决】UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 1: ordinal not in range(128)
1.问题描述今天在升级Ubuntu到14.04,使用命令行启动软件更新器,进行版本升级,结果开始升级就异常退出了,具体打印如下: $update-manager -d 正在检查新版 Ubuntu 使 ...

随机推荐

使用 WRK 压力测试工具对 ASP.NET Core 的接口进行压力测试
0. 简要介绍 WRK 是一款轻量且易用的 HTTP 压力测试工具,通过该工具我们可以方便地对我们所开发的 WebAPI 项目进行压力测试,并且针对测试的情况返回结果. PS:Wrk 并不能针对测试的 ...
Ansible系列之roles使用说明
roles(角色)介绍 ansible自1.2版本开始引入的新特性,用于层次性,结构化地组织playbook.roles能够根据层次型结构自动装载变量文件.tasks以及handlers等.要使用ro ...
Android布局中的空格以及占一个汉字宽度的空格，实现不同汉字字数对齐
前言在Android布局中进行使用到空格,以便实现文字的对齐.那么在Android中如何表示一个空格呢? 空格: (普通的英文半角空格但不换行) 窄空格: 　(中文全角空格 (一个中文宽度)) ...
减少重复代码的书写--Lombok
本文版权归远方的风lyh和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 在开发中,比如我们要写一个modol 实体类要编写 get.set 这些获取和填值的方法,这样写也没错 ...
C# 锁系列目录
1.lock.Monitor lock(obj){} 编译之后是如下代码 Monitor.Enter(obj); try { // } finally { Monitor.Exit(obj); } 2 ...
微信分享JS-SDK
微信JS-SDK,提供给开发者的基于微信内的网页开发工具包使用微信JS-SDK,网页开发者可借助微信高效地使用拍照.选图.语音.位置等手机系统的能力,同时可以直接使用微信分享.扫一扫.卡券.支付等微 ...
JQ-bootstrap我的开源前端框架
因为实在不知道写啥,所以迟迟没有相关的介绍.但是必须要积累过程资产,所以还是介绍一下,不定哪天就有人用了. 首先还是介绍遇到的问题,我是做传统后台管理系统的,公司赶时髦,要用boo ...
Tomcat8源码笔记(八)明白Tomcat怎么部署webapps下项目
以前没想过这么个问题:Tomcat怎么处理webapps下项目,并且我访问浏览器ip: port/项目名/请求路径,以SSM为例,Tomcat怎么就能将请求找到项目呢,项目还是个文件夹类型的? Tom ...
SHELL脚本--数学运算和bc命令
bash&shell系列文章:http://www.cnblogs.com/f-ck-need-u/p/7048359.html 使用let.(()).$(())或$[]进行基本的整数运算,使 ...
python装饰器1：函数装饰器详解
装饰器1:函数装饰器装饰器2:类装饰器装饰器3:进阶先混个眼熟谁可以作为装饰器(可以将谁编写成装饰器): 函数方法实现了__call__的可调用类装饰器可以去装饰谁(谁可以被装饰): 函 ...

Python 'xxx' codec can't decode byte xxx常见编码错

测试环境

问题描述

实践探索

原因分析

综上结论

Python 'xxx' codec can't decode byte xxx常见编码错的更多相关文章

随机推荐

热门专题