python 编码问题之终极解决

结合之前遇到的坑以及下面贴的这篇文章，总结几种python乱码解决方案，如果遇到乱码，不妨尝试一下？

1，必备

#encoding=utf-8

2,　python编程环境编码

import sys

reload(sys)

sys.setdefaultencoding('utf8')

3,不知道神马编码的时候用chardet查一下

from chardet import detect  # detect(str),参数只能是str,不能是unicode编码的

if not isinstance(line, unicode):

    line = line.decode(detect(line)['encoding']).rstrip().lower()

4,mysql 的默认字符集 latin1，Latin1是ISO-8859-1的别名，有些环境下写作Latin-1，ISO-8859-1编码是单字节编码，向下兼容ASCII

try:

    line = line.rstrip().decode("utf-8").lower()

except UnicodeDecodeError:

    line = line.decode('latin-1').rstrip().lower()    # 很多网页采用这种编码格式，爬取网页的时候会遇到

5，读取oracle中文遇到问题的话，设置一下客户端编码

import os

os.environ['NLS_LANG']

= 'SIMPLIFIED CHINESE_CHINA.UTF8'

6, 非常好用的codecs, GB2312 < GBK < GB18030，

import codecs         # 下载的txt文本在mac上打开乱码，这样子转一下就好了
fo = codecs.open('/Users/baidu/Desktop/spark/现代汉语常用词表.txt', 'rb', 'gbk')

fo = codecs.open('/Users/baidu/Desktop/spark/现代汉语常用词表.txt', 'rb', 'utf8')

fo = codecs.open('/Users/baidu/Desktop/spark/现代汉语常用词表.txt', 'rb', 'gb18030')

混合编码的情况最烦人，可以采用try:....UnicodeDecodeError:....去尝试不同解码方法，或者用chardet先检测再解码(但是有些编码格式字符串找不到解码方式)

总之，读进来先统一解码为unicode的格式，写出去都同一编写为utf-8格式(除非特殊要求)

附上各种编码教程 http://www.crifan.com/character_encoding_charset_simpile_tutorial/

【整理】Python中遇到"UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequence"之类的编码或解码的错误时如何处理
原文 http://www.crifan.com/summary_python_unicodedecode_error_possible_reasons_and_solutions/

问题参见：

python2.7 urllib2 抓取新浪乱码

中的：

报错的异常是
UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequence

此问题，还是很具有代表性的，此处，专门整理如下：

【Python中如何处理UnicodeDecodeError和UnicodeEncodeError】

简答：

1.仔细分析错误的类型

2.搞清自己处理的字符串是什么类型的

3.然后换用这种的字符编码去编码或解码

详解：

以上面的错误：

UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequence

为例，去解释，如何处理这类问题：

1.仔细分析错误的类型

（1）错误是Unicode的编码还是解码

对于此处，错误是：

UnicodeDecodeError
的类型的。

此英文，对应的中文的含义，其实已经很清楚了：

Unicode的解码（Decode）出现错误（Error）了

而对于上面这句，我们可以推断出：

你当前正在处理某种编码类型的字符串
此处你要处理字符串，是想要将该字符串去解码decode，变成Unicode
但是将该字符串解码变成Unicode期间，却出错了
（2）所用的是何种编码

好的，接着看上面的错误：

‘gbk’ codec can’t decode
使得错误信息更加明显了：

你此处，要将字符串解码为Unicode，是以gbk编码的方式去解码（该字符串变成Unicode）的
但是此处通过gbk的方式，却无法解码（can’t decode ）
注：此处的codec，意思是：编解码（器），是Python内部的模块，用来编码或解码（字符串）的
（3）错误位置

bytes in position 2-3

此处的信息，后续一般也很少用到。

有时候会用于定位具体错误的位置。

此处暂且忽略。

（4）错误的细节错误类型

illegal multibyte sequence

翻译为中文为：

非法的，多字节，序列

简单说就是：

没法（解码）了。

【原因及解决办法】

好了，针对于上面所分析出来的信息：

将一个字符串，通过gbk的方式，去解码，想要获得Unicode字符串，结果出错了

我们来说说原因和解决办法：

此种错误，有几种可能：
（1）要处理的字符串本身不是gbk编码，但是你却以gbk编码去解码
比如，字符串本身是utf-8的，但是你却用gbk去解码utf-8的字符串，所以结果不用说，则必然出错

则必然会出现这类的错误，说是，用gbk的方式去解码字符串，想要获得Unicode字符串，但是结果却解码出错了

解决办法：

如果你确定当前字符串，比如抓取网页通过charset=utf-8，已经确定html的字符串是utf-8的，

则可以直接去通过utf-8去解码。

python 编码问题之终极解决的更多相关文章

python 编码报错问题 'ascii' codec can't encode characters 解决方法
python在安装时,默认的编码是ascii, 当程序中出现非ascii编码时,python的处理常常会报这样的错 'ascii' codec can't encode characters pyth ...
彻底解决Python编码问题
1. 基本概念字符集(Character set) 解释:文字和符合的总称常见字符集: Unicode字符集 ASCII字符集(Unicode子集) GB2312字符集编码方法(Encoding ...
(转载) 浅谈python编码处理
最近业务中需要用 Python 写一些脚本.尽管脚本的交互只是命令行 + 日志输出,但是为了让界面友好些,我还是决定用中文输出日志信息. 很快,我就遇到了异常: UnicodeEncodeError: ...
Python之路3【知识点】白话Python编码和文件操作
Python文件头部模板先说个小知识点:如何在创建文件的时候自动添加文件的头部信息! 通过:file--settings 每次都通过file--setings打开设置页面太麻烦了!可以通过:View ...
关于Python编码，超诡异的，我也是醉了
Python的编码问题,真是让人醉了.最近碰到的问题还真不少.比如中文文件名.csv .python对外呈现不一致啊,感觉好不公平. 没图说个JB,下面立马上图. 我早些时候的其他脚本,csv都是 ...
python编码问题大终结
一.了解字符编码的知识储备 1. 文本编辑器存取文件的原理(nodepad++,pycharm,word) 打开编辑器就打开了启动了一个进程,是在内存中的,所以在编辑器编写的内容也都是存放与内存中的, ...
python编码问题一点通
一.了解字符编码的知识储备 1. 文本编辑器存取文件的原理(nodepad++,pycharm,word) 打开编辑器就打开了启动了一个进程,是在内存中的,所以在编辑器编写的内容也都是存放与内存中的, ...
python编码错误
初学python,遇到的最难忘的坑没有之一.这个问题起码困扰了我一周.在我写了一段代码之后经常遇见这样的报错. 本质原因是我用的python2,在编码流派中python2是比较奇葩的一派,不随大流.所 ...
python编码详解--转自(Alex的博客)
原文地址:http://www.cnblogs.com/alex3714/articles/7550940.html 编码回顾在备编码相关的课件时,在知乎上看到一段关于Python编码的回答这哥们 ...

随机推荐

B1023 组个最小数（20分）
B1023 组个最小数 (20分) 给定数字 0-9各若干个.你可以以任意顺序排列这些数字,但必须全部使用.目标是使得最后得到的数尽可能小(注意 0 不能做首位).例如:给定两个 0,两个 1,三个 ...
MySQL之索引（二）
高性能的索引策略正确地创建和使用索引是实现高性能查询的基础.在MySQL之索引(一)这一章中我们介绍了各种类型的索引及其对应的优缺点.现在我们一起来看看如何真正地发挥这些索引的优势. 独立的列我们 ...
【ELK】ELK安装与配置
一.ELK体系结构二.系统环境变量 [主机信息] IP 主机名操作系统版本 10.10.10.102 console CentOS7.5 10.10.10.103 log1 CentOS7.510 ...
CART树 python小样例
决策树不断将数据切分成小数据集,直到所有目标变量完全相同,或者数据不能再切分为止,决策时是一种贪心算法,它要在给定的时间内做出最佳选择,但并不关心能否达到最优树回归优点:可以对复杂和非线性的数据建 ...
Linux之匿名FTP服务器搭建
FTP(File Transfer Protocol)是在服务器与客户端进行文件传输的一种传输协议.本次介绍的是vsftpd的软件体验ftp服务. FTP服务器默认情况下依据用户登录情况分为三种不同的 ...
【Remove Nth Node From End of List】cpp
题目: Given a linked list, remove the nth node from the end of list and return its head. For example, ...
ogre3D学习基础4 -- 网格工具与硬件缓存
三.网格工具(Mesh) 1.导出器(Exporters)--- 用于从模型生成器中得到数据并且导入到OGRE中去. 导出器是指通过3D模型工具的插件写成网格数据和骨骼动画的文件格式可以在OGRE中被 ...
Android 使用剪贴板传递简单数据及复杂数据的方法
传递数据的场景在于不同页面之间跳转,需要携带数据:简单数据值指的是String, int等数据, 复杂数据指的是类 1. 使用剪贴板传递简单数据方法: 第一个页面里面放数据操作如下: Clipbo ...
macOS Sierra 触控板无法三指拖移窗口、三指选中文字的解决方法
问题:升级macOS Sierra新系统后,发现触摸板无法进行三指拖移窗口.三指选定文字的操作.在“系统偏好设置”——“触控板”内无法进行设置. 解决:“系统偏好设置”——“辅助功能”——“鼠标与触控 ...
[oldboy-django][5python基础][高级特性]generator生成器
# 生成器基础 - 定义在循环的时候不断推算下一个元素的值,而不是一下子创建空间存储所有元素,这样节省空间. 并且在适当的条件结束循环,这种一边循环一边计算的机制,称为generator生成器 - ...

python 编码问题之终极解决

python 编码问题之终极解决的更多相关文章

随机推荐

热门专题