Python的字符串编码

本文用实验详细地演示了Python2和Python3在字符串编码上的区别。

在Python2中，字符串字面量对应于8位的字符或面向字节编码的字节字面量。这些字符串的一个重要限制是它们无法完全地支持国际字符集和Unicode编码。为了解决这种限制，Python2对Unicode数据使用了单独的字符串类型。要输入Unicode字符串字面量，要在第一个引号前加上前最'u'。

Python2中还有一种称为字节字面量的字符串类型，它是指一个已经编码的字符串字面量，在Python2中字节字面量和普通字符串没有差别，因为在Python2中普通字符串实际上就是已经编码(非Unicode)的字节字符串。

在Python3中，不必加入这个前缀字符，否则是语法错误，这是因为所有的字符串默认已经是Unicode编码了。如果使用-U选项运行解释器，Python2会模拟这种行为(即所有字符串字面量将被作为Unicode字符对待，u前缀可以省略)。在Python3中，字节字面量变成了与普通字符串不同的类型。

~/download/firefox $ python2
Python 2.7.2 (default, Jun 29 2011, 11:17:09)
[GCC 4.6.1] on linux2
Type "help", "copyright", "credits" or "license" for more information.

>>> '张俊' #python2 会自动将字符串转换为合适编码的字节字符串
'\xe5\xbc\xa0\xe4\xbf\x8a' #自动转换为utf-8编码的字节字符串

>>> u'张俊' #显式指定字符串类型为unicode类型，此类型字符串没有编码，保存的是字符在unicode字符集中的代码点(序号)
u'\u5f20\u4fca'

>>> '张俊'.encode('utf-8') #python2 已经自动将其转化为utf-8类型编码，因此再次编码(python2会将该字符串当作用ascii或unicode编码过)会出现错误。
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 0: ordinal not in range(128)

>>> '张俊'.decode('utf-8') #python2 可以正常解码，返回的字符串类是无编码的unicode类型
u'\u5f20\u4fca'

>>> b'张俊' # ‘张俊' 已被python2转换为utf-8编码，因此已为字节字符串
'\xe5\xbc\xa0\xe4\xbf\x8a'

>>> print '张俊'
张俊

>>> print u'张俊'
张俊

>>> print b'张俊'
张俊
>>>

~/download/firefox $ python3
Python 3.2.2 (default, Sep 5 2011, 04:33:58)
[GCC 4.6.1 20110819 (prerelease)] on linux2
Type "help", "copyright", "credits" or "license" for more information.

>>> '张俊' #python3的字符串默认为unicode格式(无编码)
'张俊'

>>> u'张俊' #由于默认为unicode格式，因此字符串不用像python2一样显式地指出其类型，否则是语法错误。
File "<stdin>", line 1
u'张俊'
^
SyntaxError: invalid syntax

>>> type('张俊') #python3中文本字符串和字节字符串是严格区分的，默认为unicode格式的文本字符串
<class 'str'>

>>> '张俊'.decode('utf-8') #因为默认的文本字符串为unicode格式，因此文本字符串没有decode方法
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'str' object has no attribute 'decode'

>>> '张俊'.encode('utf-8') #将文本字符串编码，转换为已编码的字节字符串类型
b'\xe5\xbc\xa0\xe4\xbf\x8a'

>>> type('张俊'.encode('utf-8'))
<class 'bytes'>

>>> print ('张俊'.encode('utf-8')) #对于已编码的字节字符串，文本字符串的许多特性和方法已经不能使用。
b'\xe5\xbc\xa0\xe4\xbf\x8a'

>>>print ('张俊'.encode('utf-8'))
b'\xe5\xbc\xa0\xe4\xbf\x8a'

>>> print ('张俊'.encode('utf-8').decode('utf-8')) #必须将字节字符串解码后才能打印出来
张俊

Python的字符串编码的更多相关文章

Python判断字符串编码以及编码的转换
转自:http://www.cnblogs.com/zhanhg/p/4392089.html Python判断字符串编码以及编码的转换判断字符串编码: 使用 chardet 可以很方便的实现字符串 ...
python中字符串编码转换
字符串编码转换程序员最苦逼的地方,什么乱码之类的几乎都是由汉字引起的. 其实编码问题很好搞定,只要记住一点: 任何平台的任何编码,都能和Unicode互相转换. UTF-8与GBK互相转换,那就先把U ...
python中文字符串编码问题
接口测试的时候,发现接口返回内容是uncodie类型但是包含中文.在使用print进行打印时输出提示错误: UnicodeEncodeError: 'ascii' codec can't encode ...
【python】字符串编码问题
参考:http://blog.csdn.net/tingsking18/article/details/4033645 python内部的字符串是以unicode来编码 decode函数用来将其他编码 ...
python中字符串编码方式小结
Python2中字符串的类型有两种:str和unicode,其中unicode是统一编码方式,它使得字符跟二进制是一一对应的,因此所有其他编码的encode都从unicode开始,而其他编码方式按照相 ...
python 检测字符串编码类型是什么
for index,value in enumerate(listvalue): adchar=chardet.detect(value) print adchar if adchar['encodi ...
基于Python的数据分析(2)：字符串编码
在上一篇文章<基于Python的数据分析(1):配置安装环境>中的第四个步骤中我们在python的启动步骤中强制要求加载sitecustomize.py文件并设置其默认编码为"u ...
Python字符串编码——Unicode
ASCII码我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串.每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte).也就是 ...
关于python中的字符串编码理解
python2.x 中中间编码为unicode,一个字符串需要decode为unicode,再encode为其它编码格式(gbk.utf8等) 以gbk转utf8为例: s = "我是字符串 ...

随机推荐

Git学习-上传项目到github
现在流行把项目代码上传到git上,今天试了好久,终于成功上传到git了,特做点笔记. 准备工作在github上注册一个账号,创建一个仓库. 创建好仓库,得到它的地址: 开始上传一.新建一个文件夹, ...
Android程序员接下来的路该如何走？
随着“5G”(第五代移动通信技术)商用进程越来越快,各个芯片和终端厂商们都已经开始布局准备,想必智能手机会是消费者最先能够接触到5G的重要终端,而和其相辅相生的移动互联网也势必会有新的发展. 但是和行 ...
Spring Security Oauth2 自定义 OAuth2 Exception
付出就要得到回报,这种想法是错的. 前言在使用Spring Security Oauth2登录和鉴权失败时,默认返回的异常信息如下 { "error": "unauth ...
关于纯xmlhttprequest请求服务器数据
今天我们的web技术已经相当的完善, 各种前端框架如jquery或者再深一点的工具APIcloud 的使用极大的方便了我们的开发工作. 今天我要分享一个纯javascript的方式来解决请求服务器数据 ...
大数据平台搭建 - cdh5.11.1 - hadoop集群安装
一.前言由于线下测试的需要,需要在公司线下(测试)环境搭建大数据集群. 那么CDH是什么? hadoop是一个开源项目,所以很多公司再这个基础上进行商业化,不收费的hadoop版本主要有三个,分别是 ...
安卓APP开发简单实例结对编程心得
开始说起搞APP开发,自己和小伙伴的编程水平真的很低,无从下手,只有在网上找点案列,学习着怎样开发,结对编程还是面临着许多问题的,大家的水平有所差异和编程风格不同,我们用eclipse做了一个仿微信登 ...
python time.striptime模块用法
python time模块中strptime用法 time.strptime(string[, format]) 其中string参数即为要深入的日期字符串.format为格式化的日期字符串. %Y ...
charles DNS欺骗
本文参考:charles DNS欺骗 DNS欺骗/DNS Spoofing 功能:通过将您自己的主机名指定给远程地址映射来欺骗DNS查找一般的开发流程中,在上线之前都需要在测试环境中先行进行验证,而 ...
Java 开发中常用的网站地址
博客地址:http://www.moonxy.com 一.前言在日常的开发中,通常需要访问或者设置不同的网站来获取需要的数据,不如我们都知道 Linux 系统版本比较多(例如:Ubuntu.Cent ...
第1次作业：使用Packet Tracer分析HTTP数据包
个人信息: • 姓名:李微微 • 班级:计算1811 • 学号:201821121001 一.摘要本文将会描述使用Packet Tracer工具用到的网络结构 ...

Python的字符串编码

Python的字符串编码的更多相关文章

随机推荐

热门专题