python语言中的编码问题

在编程的过程当中，常常会遇到莫名其妙的乱码问题。很多人选择出了问题直接在网上找答案，把别人的例子照搬过来，这是快速解决问题的一个好办法。然而，作为一个严谨求实的开发者，如果不从源头上彻底理解乱码产生的机制，并由此寻求解决问题的根本路径，那么永远不能从码农的阴影中摆脱出来。下面就来一起了解一下计算机编码问题的来龙去脉。

ASCII

众所周知，计算机中的所有数据，不论是文字、图片、视频、还是音频文件，本质上最终都是按照类似 01010101 的二进制形式存储的。然而，计算机中的字符，并不能完全以这种方式来表示。由于计算机最初是由美国人发明的，因而最初的计算机编码使用的也是美国人的标准，即ASCII( American Standard Code for Information Interchange，美国信息交换标准代码)。ASCII码一共规定了128个字符的编码，比如大写的字母A是65（二进制01000001），符号@的编码是64（二进制01000000）。这128个符号中， 0～31及127(共33个)是控制字符或通信字符，32–126 分配给了能在键盘上找到并且能打印出来的字符。所有ASCII编码表示的内容，只占用了一个字节的后面7位，最高位统一规定为0。

后来为了能够表示欧洲地区除了英文字母以外的其它字母，出现了扩展的ASCII编码。扩展的ASCII包含原有的128个字符，又增加了128个字符，总共是256个。编码时最高位为1，这样就可以与ASCII码完全兼容。可以表示诸如音标æ（编码145，二进制10010001）以及法语中的字母é（编码为130，二进制10000010）等字符。

这个编码能表示音标和欧洲大多数非英语系字母，但是它并不是国际标准，在不同的国家， 128 到 255对应的字符并不完全相同，这就产生了各种不同的扩展ASCII编码。比如 ISO8859-1 字符集，也就是 Latin-1，加入了西欧常用字符，包括德法两国的字母。ISO8859-2 字符集，也称为 Latin-2，收集了东欧字符。 ISO8859-3 字符集，也称为 Latin-3，收集了南欧字符，等等。

这样的编码方式够吗？显然不够，比如汉字，就无法用ASCII表示。扩展的ASCII 也远远不够。

GBK

中国人为了能够正常使用计算机这一伟大方明，做出了多方面的努力。GB2312就是这一努力的成果，该标准于1980年发布，1981年5月1日开始实施。它标志着我国在使用电子计算机方面迈出了重要的一步。GB2312 编码共收录了6763个汉字，同时还兼容 ASCII。这一字符编码基本满足了汉字的计算机处理需要，它所收录的汉字已经覆盖中国大陆99.75%的使用频率，对一些古汉语和繁体字 GB2312 没法处理。后来就在GB2312的基础上创建了一种叫 GBK 的编码，于1995年正式发布。GBK 不仅收录了GB 2312 中的全部汉字、非汉字符号，同时还收录了日韩语中出现的汉字，如韩国著名围棋手李世乭中的乭 GBK编码是0x8168(0x表示16进制)。这里可以查询汉字对应的GBK编码。

GBK编码一般用两个字节表示一个字符，如果是英文字母，则使用一个字符，与ASCII编码相同，因此，GBK 也是兼容 ASCII 编码的，但并不与任何扩展的ASCII编码兼容。这可以从它的编码序列看出来。

GBK 采用双字节表示，总体编码范围为 0x8140-0xFEFE（1000000101000000-1111111011111110），首字节在 0x81-0xFE 之间，尾字节在 0x40-0xFE之间。可以看出首字节最高位都为1，这样一来，如果尾字节后的字节最高位为0，那么就可以解析为一个ASCII编码字符，否则就是一个连续的二字节字符。

Unicode

世界上存在着多种语言，有没有一种编码方式能够囊括所有语言中的字符呢？答案是有。Unicode编码正是为了满足这种需求制定的。Unicode是一个很大的集合，目前的规模可以容纳100多万个符号。每个符号的编码都不一样，这么多的字符，想要以二进制形式表示，就需要比较多的字节才能够一一对应。标准的Unicode采用4个字节表示一个字符串。这个四字节的二进制代码，称为这个字符的码点。比如，U+0639表示阿拉伯字母Ain，U+0041表示英语的大写字母A，U+ 4E6D表示汉字"乭 "。访问unicode.org可以查询具体的符号对应表。

使用4个字节表示一个字符的方法显然不够科学，因为很多英文字母只需要一个字节就可以表示了，偏要用四个字节表示就会造成很大的浪费。于是就出现了UTF-8 编码。

Unicode只是规定了字符如何编码，并没有规定如何存储和传输。 UTF-8编码就是Unicode编码的一种实现方式，它规定可以使用1~4个字节表示一个字符，根据所要表现的字符不同而变化字节长度，英文字母就用1个字节表示，汉字就用2-3个字节表示。

那么问题来了，由于计算机中的字符串是连续的0101的编码，如何既能够表示一个字符在Unicode编码表中的码点，又能够让计算机明白这个连续编码串中的一个字节就是一个英文字母，而不与他前面的编码串构成两个或三个字节表示的字符。UTF-8 的编码的设计者巧妙的解决了这个问题。

英文字符这些原本就可以用ASCII码表示的字符用UTF-8表示时就只需要一个字节的空间，和ASCII是一样的。对于多字节（n个字节）的字符，第一个字节的前n为都设为1，第n+1位设为0，后面字节的前两位都设为10。剩下的二进制位全部用该字符的Unicode码填充。

0001 0000~0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

这样的编码方式很好理解，如果一个字节当中第一位是0，那么这个字节就对应着一个字符，如果第一位是1，那么看他后面连续有多少个1，就表示这个字符占用了多少个字节。例如，“我”的Unicode码点是0x6211，二进制110001000010001，落在第三行的范围内（0000 0800~0000 FFFF），因此"我"需要三个字节，格式是"1110xxxx 10xxxxxx 10xxxxxx"。然后，从"我"的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了"我"的UTF-8编码是"11100110 10001000 10010001 "，转换成十六进制就是E68891，这才是最终存储在计算机中的二进制编码。

这里指出一个误区，网络上有很多在线utf8编码转换工具，声称可以把汉字转换成UTF-8 编码，其实大多数工具只是把汉字转换成了与之对应的unicode码点，并不是真正在存储和传输过程中的utf-8编码。这里可以查询汉字对应的utf-8编码和unicode编码，可以看出这两者是不同的。

除了UTF-8之外，Unicode的实现方式还有UTF-16 ，UTF-32 。 UTF-16 使用2~4个字节表示一个字符，UTF-32 则使用标准的4个字节表示一个字符，与其Unicode码点一一对应。无论采用哪种表现形式，同一字符所对应的Unicode码点都是一样的，只不过在存储和传输的时候，把码点做了不同的转换。

PYTHON字符编码

下面开始讲讲Python中的编码问题。

Python的默认编码是ASCII，这跟它的诞生背景有关，Python的诞生时间是1989年，Unicode于 1994年才正式公布，在Python诞生之初并无Unicode可用，只能选择ASCII。后来做了多方改进，才使得它适用于非英语系的用户。

如果不做修改，Python将使用ASCII为所有代码编码，包括注释。

>>> import sys

>>> sys.getdefaultencoding()

'ascii'

在编写python代码时如果不指定文件的编码方式，将默认使用ASCII编码。所以如果在代码中出现中文，将会报错

#stringtest.py

print '你好'

C:\Python27\python.exe D:/MyGit/demo/test/test.py
File "D:/MyGit/demo/test/test.py", line 1
SyntaxError: Non-ASCII character '\xe4' in file D:/MyGit/demo/test/test.py on line 1, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

如果想在代码中使用中文，则一定要在代码开头（第一行或第二行）声明此文件的编码方式，比如编码方式设为UTF-8

# -*- coding: utf-8 -*-

或者

#!/usr/bin/python

# -*- coding: utf-8 -*-

其中第一行注释是为了告诉Linux/OS X系统，这是一个Python可执行程序，Windows系统会忽略这个注释。

这样，在代码中就可以使用中文了。

（完）

python语言中的编码问题的更多相关文章

python语言中的编码问题(续)
上文提到了python开发中非常重要的两处设置. 一个是编解码器的默认设置defaultencoding >>> import sys >>> sys.getdef ...
Python语言中各种进制相互转换
目录 Python语言中各种进制相互转换将二进制.八进制.十进制的数分别转换成十进制的方法将十进制转换成二进制.八进制.十六进制 Python语言中各种进制相互转换本文参考自https://ww ...
Python语言中的关键字（自己做的读书笔记）
电脑配置:联想笔记本电脑 windows8系统 Python版本:2.7.8 本文章撰写时间:2015.1.1 作者:陈东陈阅读说明: 1.本文都是先解释,后放图片: 2.文中斜体部分要么为需要输入 ...
聊聊python 2中的编码
为什么需要编码: 计算机可以存储和处理二进制,那么从文字到计算机可以识别的二进制之间需要对应的关系,于是便有了ASCII,ASSCII使用7位字符,由于1byte=8bit,所以最高位补一个0,使用8 ...
Python 2 中的编码
在 Python 尤其是 Python2 中,编码问题是困扰开发者尤其初学者的一大问题.什么 Unicode/UTF-8/str ,又是 decode/encode 的,搞得人头都大了.其实不然,这有 ...
了解 Python 语言中的时间处理
python 语言对于时间的处理继承了 C语言的传统,时间值是以秒为单位的浮点数,记录的是从1970年1月1日零点到现在的秒数,这个秒数可以转换成我们日常可阅读形式的日期和时间:我们下面首先来看一下p ...
python 2 和python 3 中的编码对比
在 Python 中,不论是 Python2 还是 Python3 中,总体上说,字符都只有两大类: 通用的 Unicode 字符: (unicode 被编码后的)某种编码类型的字符,比如 UTF-8 ...
day06 python 3中的编码
#python2 和 python3 的一些区别 ''' #python2 print('aaa') print'aaa' range() xrange()生成器 raw_input() #pytho ...
Python语言中的按位运算
(转)位操作是程序设计中对位模式或二进制数的一元和二元操作. 在许多古老的微处理器上, 位运算比加减运算略快, 通常位运算比乘除法运算要快很多. 在现代架构中, 情况并非如此:位运算的运算速度通常与加 ...

随机推荐

iOS之开发中常用的颜色及其对应的RGB值
R G B 值 R G B 值 R G B 值黑色 0 0 0 #000000 黄色 255 255 0 #FFFF00 浅灰蓝色 176 224 230 #B0E0E6 象牙黑 41 ...
Ajax.BeginForm方法参数
感谢博主 http://www.cnblogs.com/zzgblog/p/5454019.html toyoung 在Asp.Net的MVC中的语法,在Razor页面中使用,替代JQuery的Aja ...
在Ubuntu下安装ovs-dpdk
在Ubuntu下安装ovs-dpdk 参考资料:https://software.intel.com/zh-cn/articles/using-open-vswitch-with-dpdk-on-ub ...
Linux 安装Mono环境运行ASP.NET（一）
1.先看一下Linux环境下面请求的过程,(画的不是很好,简单的了解一下原理.) .NET跨平台其实需要这三个关键:编译器.CLR和基础类库.在.NET下我们编写一个最简单的"Hello W ...
MyBatis4：动态SQL
什么是动态SQL MyBatis的一个强大特性之一通常是它的动态SQL能力.如果你有使用JDBC或其他相似框架的经验,你就明白条件串联SQL字符串在一起是多么地痛苦,确保不能忘了空格或者在列表的最后的 ...
ABP源码分析四十六：ABP ZERO中的Ldap模块
通过AD作为用户认证的数据源.整个管理用户认证逻辑就在LdapAuthenticationSource类中实现. LdapSettingProvider:定义LDAP的setting和提供Defaut ...
Python TODO
参数类型和用法所有的双划线方法以及特性类的构建过程实例的构建过程元类MetaClass 装饰器描述符迭代器上下文管理器生成器 lambda 数据结构,集合垃圾回收机制类方法,静态方 ...
锋利的jQuery--Ajax(读书笔记四)
1.表单值得序列化 <1>serialize() 例子: html: <form action=""> First name: <input type ...
版本控制工具比较-CVS,SVN,GIT
首先介绍几个版本控制软件相互比较的重要依据: a.版本库模型(Repository model):描述了多个源码版本库副本间的关系,有客户端/服务器和分布式两种模式.在客户端/服务器模式下,每一用户通 ...
oracle的特殊权限s bit丢失
在SUN Cluster搭建过程中,主机工程师在配置集群资源组时报一个oracle的文件权限错误: 协助排查,发现报错很明确,直接指出说oracle的s bit 权限未设置. 直接去查看$ORACLE ...

python语言中的编码问题

python语言中的编码问题的更多相关文章

随机推荐

热门专题