python2编码总结（转）

以下依次列出python2常遇到的几个问题及讲解。

# -*- coding:utf-8 -*-

python2默认以ASCII编码，但是在实际编码过程中，我们会用到很多中文，为了不使包含中文的程序报错，也是为了符合国际通用惯例，一般将我们的文件编码设置为utf-8格式。

设定编码的格式有很多种，只要第一行或者第二行的声明符合正则表达式 "coding[:=]\s*([-\w.]+)" 即可，一般的声明方式为#-*- coding:utf-8 -*-。

str = "你好"

print str

　　运行以上代码，程序会报错：SyntaxError: Non-ASCII character '\xe4' in file D:/TestPython/test/111.py on line 1, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details。这是提示程序中有非ASCII编码的字符。如果加上utf-8声明，程序就不会报错。

# -*- coding:utf-8 -*-

str = "你好"

print str

　　虽然以上写法不会报错，但是输出的却是乱码，为什么呢？这就是下面要讲的内容。

encode和decode

讲解编码和解码之前，先来讲讲Unicode和utf-8的关系，推荐这篇博客给大家。

可以这样来理解：字符串是由字符构成，字符在计算机硬件中通过二进制形式存储，这种二进制形式就是编码。如果直接使用 “字符串↔️字符↔️二进制表示（编码）” ，会增加不同类型编码之间转换的复杂性。所以引入了一个抽象层，“字符串↔️字符↔️与存储无关的表示↔️二进制表示（编码）” ，这样，可以用一种与存储无关的形式表示字符，不同的编码之间转换时可以先转换到这个抽象层，然后再转换为其他编码形式。在这里，unicode 就是 “与存储无关的表示”，utf—8 就是 “二进制表示”。

python2中字符串有两种表示形式，str和unicode。str可以理解为上面这段话中的二进制编码格式，unicode可以理解为抽象层。encode是编码，即从unicode格式到二进制的编码格式如utf-8、gb2312等。decode是解码，即从二进制编码格式到unicode编码格式。

下面请看代码：

# -*- coding:utf-8 -*-

str1 = "你好"
print type(str1)
str2 = str1.decode("utf-8")
print type(str2)

　　str1是str类型，通过decode转为了unicode类型。

下面看encode代码：

# -*- coding:utf-8 -*-

str1 = u"你好"

print type(str1)

str2 = str1.encode("utf-8")

print type(str2)

　　str1是unicode类型，通过encode转为了str类型。

我们再回头看最开始留下的问题，那段代码为什么会输出乱码呢。因为文件规定的编码格式是utf-8,但是我们print是打印到控制台的，控制台无法显示utf-8编码格式的字符。所以我们要转一下格式。

# -*- coding:utf-8 -*-

str = "你好"

str = str.decode("utf-8")

print str

　　很多时候编码解码的时候需要加ignore参数才能正确转换，例如.encode('utf-8', 'ignore')或.decode('utf-8', 'ignore')，大家自行斟酌吧。

chardet获取编码格式

有些时候我们是无法知道字符串是什么编码的，比如抓取网页时，有些是utf-8的，有些是gb2312编码的，那我们该怎么获取编码格式并转换为unicode呢。这里就介绍到一个第三方库chardet。使用方式大概如下：

# -*- coding: utf-8 -*-

import chardet

str = "xxxxx"

str_type = chardet.detect(str)

code = str_type['encoding']

　　code即为str的编码格式。但有些人反映该方法得到的编码格式不准确，速度也慢。本人亲测，速度确实一般，但是目前还没遇到不准确的情况。大家可以斟酌使用，我这里只是提供一个思路，如果谁那里有更好的方式，可以告知小弟，不吝赐教才是。

import sys

reload(sys)

sys.setdefaultencoding('utf8')

之前也遇到过很莫名其妙的编码错误，网上搜到这种方法能解决就糊里糊涂的用上了，也不知是什么原理。今天看到一篇不错的博客，推荐给大家：http://blog.csdn.net/crazyhacking/article/details/39375535。以下内容引用自该篇文章：

Python 里面的编码和解码也就是 unicode 和 str 这两种形式的相互转化。编码是 unicode -> str，相反的，解码就是 str -> unicode。剩下的问题就是确定何时需要进行编码或者解码了.关于文件开头的"编码指示"，也就是 # -*- coding: -*- 这个语句。Python 默认脚本文件都是 UTF-8 编码的，当文件中有非 UTF-8 编码范围内的字符的时候就要使用"编码指示"来修正. 关于 sys.defaultencoding，这个在解码没有明确指明解码方式的时候使用。比如我有如下代码：

#! /usr/bin/env python

# -*- coding: utf-8 -*-

s = '中文'  # 注意这里的 str 是 str 类型的，而不是 unicode

s.encode('gb18030') 

这句代码将 s 重新编码为 gb18030 的格式，即进行 unicode -> str 的转换。因为 s 本身就是 str 类型的，因此 Python 会自动的先将 s 解码为 unicode ，然后再编码成 gb18030。因为解码是python自动进行的，我们没有指明解码方式，python 就会使用 sys.defaultencoding 指明的方式来解码。很多情况下 sys.defaultencoding 是 ANSCII，如果 s 不是这个类型就会出错。拿上面的情况来说，我的 sys.defaultencoding 是 anscii，而 s 的编码方式和文件的编码方式一致，是 utf8 的，所以出错了:

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position

0: ordinal not in range(128)

对于这种情况，我们有两种方法来改正错误：

一是明确的指示出 s 的编码方式 

#! /usr/bin/env python

# -*- coding: utf-8 -*- 

s = '中文'

s.decode('utf-8').encode('gb18030') 

二是更改 sys.defaultencoding 为文件的编码方式 

#! /usr/bin/env python

# -*- coding: utf-8 -*- 

import sys

reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法，我们需要重新载入

sys.setdefaultencoding('utf-8') 

str = '中文'

str.encode('gb18030')

看完之后,改成这样

print "<p>addr:", form["addr"].value.decode('gb2312').encode('utf-8')

成功通过.

　　但是这种方式用着就是别扭，还是尽量自己来控制编码，明确了编码格式，自己写着也踏实。

个人总结

实际编程过程中，最好能在代码内统一编码格式，比如统一为unicode，因为这样就不用考虑编码的问题了。到了显示或输出时再转换为存储类型（utf-8、GBK）。

以上为最近编写python代码的过程中遇到的一些问题及总结，如果有什么不对的地方还请大家及时回复交流，在此谢过。

http://www.cnblogs.com/jinhaolin/p/5128973.html

python2编码总结（转）的更多相关文章

[python]Python2编码问题
以下内容说的都是 python 2.x 版本简介基本概念 Python "帮"你做的事情推荐姿势基本概念我们看到的输入输出都是'字符'(characters),计算机(程 ...
python2编码问题
前言:python3解决了编码的问题,但python2还存在很多编码问题,用P2写爬虫爬了网页,解析时常有不同字符混着编码,导致解码问题成为爬虫程序员的噩梦... 但咱们要用robot framewo ...
Python2 编码问题分析
本文浅显易懂,绿色纯天然,手工制作,请放心阅读. 编码问题是一个很大很杂的话题,要向彻底的讲明白可以写一本书了.导致乱码的原因很多,系统平台.编程语言.多国语言.软件程序支持.用户选择等都可能导致无法 ...
python2编码的问题
1,python2的默认编码是ascii码. 2,python2中有2中数据模型来支持字符串这种数据类型,分别为str和unicode. 3,uncode转换为其他编码是encode,其他编码转换成u ...
python3和python2编码拾遗
py2编码 tr和unicode str和unicode都是basestring的子类.严格意义上说,str其实是字节串,它是unicode经过编码后的字节组成的序列.对UTF-8编码的str'苑'使 ...
python2 编码问题详解
实例对比定义 type str unicode print encode('utf8') decode('utf8') encode('unicode-escape') encode('string ...
python2 编码与解码
#!coding: utf-8 s = "特斯拉" s_to_unicode = s.decode("utf-8") unicode_to_gbk = s_to ...
转 PYTHON2 编码处理-str与Unicode的区别
https://www.cnblogs.com/long2015/p/4090824.html
从python2,python3编码问题引伸出的通用编码原理解释
今天使用python2编码时遇到这样一条异常UnicodeDecodeError: ‘ascii’ code can’t decode byte 0xef 发现是编码问题,但是平常在python3中几 ...

随机推荐

Unity多玩家网络游戏开发教程1章Unity带有网络功能
Unity网络多玩家游戏开发教程第1章Unity自带网络功能 Unity拥有大量的第三方插件.专门提供了对网络功能的支持. 可是.大部分开发人员第一次接触到的还是Unity自带的网络功能.也就是大家常 ...
黄聪：Microsoft Enterprise Library 5.0 系列教程(五) Data Access Application Block
原文:黄聪:Microsoft Enterprise Library 5.0 系列教程(五) Data Access Application Block 企业库数据库访问模块通过抽象工厂模式,允许用户 ...
详细分析Java中断机制（转）
1. 引言当我们点击某个杀毒软件的取消按钮来停止查杀病毒时,当我们在控制台敲入quit命令以结束某个后台服务时……都需要通过一个线程去取消另一个线程正在执行的任务.Java没有提供一种安全直接的方法 ...
ecshop2.7.3怎么自动清除缓存
1.在ecs_shop_config表中插入一条数据进入ECSHOP后台-数据库管理-SQL查询复制下面SQL,粘贴到里面执行.注意这时是默认表前缀ecs_,如果你的修改过要和你的统一了. INS ...
lambda 3
.NET笔记系列:LAMBDA表达式常用写法这里主要是将数据库中的常用操作用LAMBDA表达式重新表示了下,用法不多,但相对较常用,等有时间了还会扩展,并将查询语句及LINQ到时也一并重新整理下 ...
kindeditor-网页文字编辑
实例下载地址:http://download.csdn.net/download/l294333475/7941759 <!DOCTYPE html PUBLIC "-//W3C//D ...
Linux安装jdk 8和环境变量配置
1.下载jdk 地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 2.将刚刚 ...
twrp gui/actions.cpp 中的功能实现 tw_action ，tw_action_param ,第二章
继续分析 twrp ui.xml中的相关内容,以<page name="reboot">为讲解内容 <object type="button" ...
采用ACE登录设施（一）HelloWorld
(1)开始使用日志设施使用日志设施,总是要包括头文件: #include "ace/Log_Msg.h" ACE日志的Hello World #ifdef _DEBUG #pra ...
【6】和作为连续序列s
称号:输入一个整数s,并打印出所有s整数的连续序列(含有至少2的数量). 如输入9,输出2.3.4和4.5两个序列方案一:因为序列至少要2个数,则两个数上限值为(1+s)/2,我们能够枚举该序列的起 ...

python2编码总结（转）

python2编码总结（转）的更多相关文章

随机推荐

热门专题