Python 2和Python 3的编码问题

在Python2中，字符串无法完全地支持国际字符集和Unicode编码。为了解决这种限制，Python2对Unicode数据使用了单独的字符串类型。要输入Unicode字符串字面量，要在第一个引号前加上'u'。Python2中普通字符串实际上就是已经编码(非Unicode)的字节字符串。

在Python3中，不必加入这个前缀字符，否则是语法错误，这是因为所有的字符串默认已经是Unicode编码了。

#python2代码

>>> '张三'  #python2 会自动将字符串转换为合适编码的字节字符串

'\xe5\xbc\xa0\xe4\xbf\x8a' #自动转换为utf-8编码的字节字符串

>>> u'张三' #显式指定字符串类型为unicode类型， 此类型字符串没有编码，保存的是字符在unicode字符集中的代码序号

u'\u5f20\u4fca'

>>> '张三'.encode('utf-8')  #python2 已经自动将其转化为utf-8类型编码，因此再次编码(python2会将该字符串当作用ascii或unicode编码过)会出现错误。

Traceback (most recent call last):

File "<stdin>", line 1, in <module>

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 0: ordinal not in range(128)

>>> '张三'.decode('utf-8')  #python2 可以正常解码，返回的字符串类是无编码的unicode类型

u'\u5f20\u4fca'

>>> b'张三'   # ‘张三' 已被python2转换为utf-8编码，因此已为字节字符串

'\xe5\xbc\xa0\xe4\xbf\x8a'

>>> print '张三'

张三

>>> print u'张三'

张三

>>> print b'张三'

张三

#python3代码

>>> '张三' #python3的字符串默认为unicode格式(无编码)

'张三'

>>> u'张三' #由于默认为unicode格式，因此字符串不用像python2一样显式地指出其类型，否则是语法错误。

File "<stdin>", line 1

u'张三'

^

SyntaxError: invalid syntax

>>> type('张三') #python3中文本字符串和字节字符串是严格区分的，默认为unicode格式的文本字符串

<class 'str'>

>>> '张三'.decode('utf-8') #因为默认的文本字符串为unicode格式，因此文本字符串没有decode方法

Traceback (most recent call last):

File "<stdin>", line 1, in <module>

AttributeError: 'str' object has no attribute 'decode'

>>> '张三'.encode('utf-8') #将文本字符串编码，转换为已编码的字节字符串类型

b'\xe5\xbc\xa0\xe4\xbf\x8a'

>>> type('张三'.encode('utf-8'))

<class 'bytes'>

>>> print ('张三'.encode('utf-8')) #对于已编码的字节字符串，文本字符串的许多特性和方法已经不能使用。

b'\xe5\xbc\xa0\xe4\xbf\x8a'

>>>print ('张三'.encode('utf-8'))

b'\xe5\xbc\xa0\xe4\xbf\x8a'

>>> print ('张三'.encode('utf-8').decode('utf-8'))  #必须将字节字符串解码后才能打印出来

张三

总结:

Python 2 中的 str 相当于 Python 3 中的 bytes
Python 2 中的 unicode 相当于 Python 3中的 str

Python3 一切都很美好

在Python3当中，文本字符串类型（使用Unicode数据存储）被命名为 str , 字节字符串类型被命名为 bytes 。一般情况下，实例化一个字符串会得到一个 str 对象：

所以现在很多人都说，Python3默认是Unicode，也就是这个意思。
如果你想得到bytes，那就在文本之前加上前缀 b , 或者 encode 一下。

所以，很显然，str 对象有一个encode方法，bytes 对象有一个decode方法。

Python2 相当的操蛋，甚至会误导你

在Python3中的 str 对象在Python2中叫做 unicode ，感觉很通俗对吧？但 bytes 对象在Python2中叫做 str ，对。。就是你平时用的 str ，默认的那个。。。

如果你想得到一个文本字符串，你需要在字符串之前加上前缀 u 或者 decode 一下。

搞笑的还不止这么点，Python2中的 str （字节）对象，竟然有一个 encode 方法！！！而且你别指望它有什么特殊用处，它就是用来报错的，永远都别使用它！！！
同样的，unicode （文本字符）对象也有一个用来报错的 decode 方法。
我们尝试一下：

不知道大家注意到错误信息没有，我们在进行解码，规则是GBK，但它说 无法用 ascii 进行编码 ，这是为什么？

这就是Python2自作聪明为了对一个unicode对象执行解码而进行的隐式编码 ，等于以下代码：

b.encode('ascii').decode('GBK')

这就是为什么很多人说，Python2的编码很操蛋。

参考:http://blog.csdn.net/yanghuan313/article/details/63262477

用于个人学习记录

Python 2和Python 3的编码问题的更多相关文章

Python : 熟悉又陌生的字符编码（转自Python 开发者）
Python : 熟悉又陌生的字符编码字符编码是计算机编程中不可回避的问题,不管你用 Python2 还是 Python3,亦或是 C++, Java 等,我都觉得非常有必要厘清计算机中的字符编码概 ...
python全栈开发-Day7 字符编码总结
python全栈开发-Day7 字符编码总结一.字符编码总结 1.什么是字符编码人类的字符--------->翻译--------->数字翻译的过程遵循的标准即字符编码(就是一个字符 ...
基于Python的数据分析(2)：字符串编码
在上一篇文章<基于Python的数据分析(1):配置安装环境>中的第四个步骤中我们在python的启动步骤中强制要求加载sitecustomize.py文件并设置其默认编码为"u ...
【转】Python中的字符串与字符编码
[转]Python中的字符串与字符编码本节内容: 前言相关概念 Python中的默认编码 Python2与Python3中对字符串的支持字符编码转换一.前言 Python中的字符编码是个老生常 ...
《转》Python学习(13)-Python的字符编码
转自 http://www.cnblogs.com/BeginMan/p/3166363.html 一.字符编码中ASCII.Unicode和UTF-8的区别点击阅读:http://www.cnbl ...
Python编程笔记二进制、字符编码、数据类型
Python编程笔记二进制.字符编码.数据类型一.二进制 bin() 在python中可以用bin()内置函数获取一个十进制的数的二进制计算机容量单位 8bit = 1 bytes 字节,最小的存 ...
Python学习之路day3-字符编码与转码
一.基础概念字符与字节字符是相对于人类而言的可识别的符号标识,是一种人类语言,如中文.英文.拉丁文甚至甲骨文.梵语等等. 字节是计算机内部识别可用的符号标识(0和1组成的二进制串,机器语言) ...
python 2 和python 3 中的编码对比
在 Python 中,不论是 Python2 还是 Python3 中,总体上说,字符都只有两大类: 通用的 Unicode 字符: (unicode 被编码后的)某种编码类型的字符,比如 UTF-8 ...
Python基础篇(格式化输出,运算符,编码):
Python基础篇(格式化输出,运算符,编码): 格式化输出: 格式:print ( " 内容%s" %(变量)) 字符类型: %s 替换字符串 %d 替换整体数字 ...
python在WIN下CMD运行中文乱码及python 2.x python 3.x编码问题
在CMD中运行python代码时,我们会发现,即使在代码中加入# -*- coding:utf-8 -*- 这段代码,中文仍然会乱码.如下: # -*- coding:utf-8 -*- conten ...

随机推荐

流程控制之for
for循环是迭代式循环,其强大之处在于循环取值用法一: l = [1, 2, 3, 4, 5, 5, 6, 5, 4, 3] for x in l: print(x) info = {'} for ...
SkylineGlobe TEPro 6.6.1 二次开发导出KML或者KMZ文件示例代码
其实Skyline的fly文件跟kml文件很像很像,只不过一个是编码加密的,另一个早已经成为OGC的通用标准: 喜欢Skyline的小伙伴们试试下面的代码吧,细心的人能发现彩蛋哦. <!DOCT ...
源代码管理工具(下)-SVN目录结构
内容中包含 base64string 图片造成字符过多,拒绝显示
Linux上vim编辑器缩进的设置(方便如书写python代码)
因为刚刚安装了Ubuntu虚拟机,知乎大神推荐用VIM编辑器,然后发现在Python缩进上不方便,查了点资料,整理出来,以便自己以后忘了还可以再看看. 第一步: 打开终端,在终端上输入 vim ~/. ...
Python崛起：“人生苦短，我用Python”并非一句戏言
这些年,编程语言的发展进程很快,在商业公司.开源社区两股力量的共同推动下,涌现出诸如Go.Swift这类后起之秀,其中最为耀眼的是Python. 在这里还是要推荐下我自己建的Python开发学 ...
c#中的多线程异常（转载）
1.对于Thread操作的异常处理 public static void Main() { try { Thread th = new Thread(DoWork); th.Start(); } ca ...
linux应用编程之进程间同步
一.描述在操作系统中,异步并发执行环境下的一组进程,因为相互制约关系,进而互相发送消息.互相合作.互相等待,使得各进程按一定的顺序和速度执行,称为进程间的同步.具有同步关系的一组并发进程,称为合作进 ...
解决RobotFramework的关键字不能高亮的问题
一个可能的原因:路径中存在汉字,RobotFramework对这方面运行的不太好.
[您有新的未分配科技点][BZOJ3545&BZOJ3551]克鲁斯卡尔重构树
这次我们来搞一个很新奇的知识点:克鲁斯卡尔重构树.它也是一种图,是克鲁斯卡尔算法求最小生成树的升级版首先看下面一个问题:BZOJ3545 Peaks. 在Bytemountains有N座山峰,每座山峰 ...
[Oracle]PDB Clone 方法
Source: SQL> alter pluggable databse pdb1 open; Target: SQL> alter session set container=cdb$r ...

Python 2和Python 3的编码问题

Python 2和Python 3的编码问题的更多相关文章

随机推荐

热门专题