Python中文问题研究

我曾经在深入浅出java中文问题系列中研究过java的中文问题，现在中文问题已经不再羁绊我在java世界中漫游的脚步了。最近，对Python产生了浓厚的兴趣，谁知道跟中文问题这个
老朋友又一次不期而遇。看来，在代码世界中，中文问题会在很长一段时间里跟我们形影不离。这也难怪，谁让当初发明计算机的不是我们中国人呢，否则，现在全世界的计算机都支持而且必须支持GBK，这样，写这样文章的人就不会是我了，而是大洋彼岸的一个金发碧眼的程序员，而且标题也相应改为 “studying the english problem in '大蟒' ”。。哈哈

YY而已，还是面对现实问题吧。相对java而言，中文问题在Python中的表现更为激烈。“激烈”的意思不是说更为严重或者说难于解决，只是 Python对于decode＆encode错误的默认处理方式为strict，也就是直接报错，而java使用replace的方式来处理了，因此 java出现中文问题后会打印出很多"??"。此外，Python的默认的encoding是ASCII，而java的默认encoding跟操作系统的 encoding是一致的。在这一点上，我觉得java更为合理，这样对程序员更为友好，也减少了newbies
开始时的挫折感，是有利于语言的推广的。但是，Python也有它的道理，毕竟ASCII是唯一的全世界所有平台都支持的字符集，而且问题始终是问题，始终会出现的，逃避它还不如早点面对它。

好了，说了这么多，该说说Python中中文问题的症状了。在这之前，我们先要了解Python中有两种字符串，分别是一般的字符串（每个字符用8 bits表示）和Unicode字符串（每个字符用一个或者多个字节表示），它们可以相互转换。关于Unicode，Joel Spolsky 在 The
Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) 中有生动的说明，Jason Orendorff 在 Unicode
for programmers 有着更为全面的描述，在此我就不再多说什么了。来看下面的代码：

x = u"中文你好"

print s

运行上述代码，Python会给出下面的错误提示

SyntaxError: Non-ASCII character '\xd6' in file G:\workspace\chinese_problem\src\test.py on line 1, but no encoding declared; seehttp://www.python.org/peps/pep-0263.html for
details

说是遇到非ASCII字符了，并让我们参考pep-0263。PEP-0263（Python Enhancement Proposal）上面说得很清楚了，Python也意识到了国际化问题，并提出了解决方案。根据提案上面的要求，我们有如下代码

# -*- coding:gb2312 -*- ＃必须在第一行或者第二行

print "-------------code 1----------------"

a = "中文a我爱你"

print a

print a.find("我")

b = a.replace("爱", "喜欢")

print b

print "--------------code 2----------------"

x = "中文a我爱你"

y = unicode(x, "gb2312")

print y.encode("gb2312")

print y.find(u"我")

z = y.replace(u"爱", u"喜欢")

print z.encode("gb2312")

print "---------------code 3----------------"

print y

程序运行的结果如下：

-------------code 1----------------

中文a我爱你

5

中文a我喜欢你

--------------code 2----------------

中文a我爱你

3

中文a我喜欢你

---------------code 3----------------

Traceback (most recent call last):

File "G:\Downloads\eclipse\workspace\p\src\hello.py", line 16, in <module>

print y

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

我们可以看到，通过引入编码声明，我们可以正常地在使用中文了，而且在code 1和2中，控制台也能正确的把中文打印出来。但是，很明显，上面的代码也反映出了不少的问题：

    1、code 1 和 2在使用print时采用了不同的方式，1是直接print，而2在print之前先进行编码

    2、code 1 和 2中在同样的字符串查找同一个字符“我”，得出的结果不一样（分别是5和3）

    3、code 3 中直接打印unicode字符串 y时出现错误（这也是为什么code 2中要先进行编码的原因）

为什么？为什么？我们可以先在脑海中模拟一下我们使用Python的流程：首先，我们先用编辑器编写好源代码，保存成文件。如果源代码中有编码声明而且用的编辑器支持该语法，那么该文件就以相应的编码方式保存在磁盘中。注意：编
码声明和源文件的编码不一定是一致的，你完全可以在编码声明中声明编码为UTF-8，但是用GB2312来保存源文件。当然，我们不可能自寻烦恼，故意写错，而且好的IDE也能强制保证两者的一致性，但是，如果我们用记事本或者EditPlus等编辑器来编写代码的话，一不小心就会出现这种问题的。

    得到一个.py文件后，我们就可以运行它了，这是，我们就把代码交给Python解析器来完成解析工作。解析器读入文件时，先解析文件中的编码声明，我们假设文件的编码为gb2312，那么先将文件中的内容由gb2312转换成Unicode，然后再把这些Unicode转换为UTF-8格式的字节串。完成这一步骤后，解析器把这些UTF-8字节串分段，解析。如果遇到使用Unicode字符串，那么就使用相应的UTF-8字节串创建Unicode字符
串，如果程序中使用的是一般的字符串，那么解析器先将UTF-8字节串通过Unicode转换成相应编码（这里就是gb2312编码）的字节串，并用其创建一般的字符串对象。也就是说，Unicode字符串跟一般字符串在内存中的存放格式是不一样的，前者使用UTF-8的格式，后者使用GB2312格式。

    好了，内存中的字符串存放格式我们知道了，下面我们要了解print的工作方式。print其实只是负责把内存中相应的字节串交给操作系统，让操作系统相应的程序（譬如cmd窗口）进行显示。这里有两种情况：

   1、若字符串是一般的字符串，那么print只需把内存中相应的字节串推送给操作系统。如例子中的code 1。

    2、如果字符串是Unicode字符串，那么print在推送之前先进行相应的encode：我们可以显示使用Unicode的encode方法使用合适的编码方式来编码（例子中code 2），否则Python使用默认的编码方式进行编码，也就是ASCII（例子中的code 3）。当然ASCII是不可能正确编码中文的，因此Python报错。

    至此，上面的三个问题我们已经可以解析第一和第三个了。至于第二个问题，因为Python中有两种字符串，一般字符串和Unicode字符串，两者都有各自的字符处理方法。对于前者，方法是以字节的方式进行的，而且在GB2312中，每个汉字占用两个字节，因此得到的结果是5；对于后者，也就是 Unicode字符串，所有字符都是统一看待的，因此得到3。

     虽然上面只提到了控制台程序的中文问题，但是文件读写以及网络传输中出现的中文问题在原理上都是类似的。Unicode的出现可以很大程度上解决软件的国际化问题，同时Python为Unicode提供了极为良好的支持，因此，我建议大家在编写Python的程序时，都统一使用Unicode方式。保存文件时使用UTF-8的编码方式。How
to Use UTF-8 with Python有详细的描述，大家可以参考一下。

    Python中能导致出现中文问题的地方还很多，譬如文件的读写，网络数据的传输等，希望大家能多多交流，共同解决这些问题。

Python中文问题研究的更多相关文章

Python中文字符的理解：str()、repr()、print
Python中文字符的理解:str().repr().print 字数1384 阅读4 评论0 喜欢0 都说Python人不把文字编码这块从头到尾.从古至今全研究通透的话是完全玩不转的.我终于深刻的理 ...
NLP+语义分析（四）︱中文语义分析研究现状（CIPS2016、角色标注、篇章分析）
摘录自:CIPS2016 中文信息处理报告<第二章语义分析研究进展. 现状及趋势>P14 CIPS2016> 中文信息处理报告下载链接:http://cips-upload.bj. ...
【原】python中文文本挖掘资料集合
这些网址是我在学习python中文文本挖掘时觉得比较好的网站,记录一下,后期也会不定期添加: 1.http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7% ...
Eclipse搭建Python开发环境+Python中文处理
1.基本需求 1.Eclipse 集成开发环境下载 http://115.com/file/c2vz7io5 JDK6下载 http://115.com/file/c2vz7idq 2. ...
python中文处理之encode/decode函数
python中文处理相信迷惑过不少同学.下面说说python2/3的encode和decode函数. python2中,使用decode()和encode()来进行解码和编码,以unicode类型作为 ...
python中文注释及输出出错
今天开始接触python,中文报错,你懂的,不细说. 网上很多类似的解决方案,有不是很明确,例如:http://blog.csdn.net/chen861201/article/details/770 ...
Python中文繁简体转换工具
Openccpy ___ _____ __ ___ ___ ___ _____ __ __ / __`\/\ '__`\ /'__`\/' _ `\ /'___\ /'___\/\ '__`\/\ \ ...
Python中文语料批量预处理手记
手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中 ...
共有11款Python 中文分词库开源软件
件过滤: 排序: 收录时间 | 浏览数 Python 中文分词库 Yaha "哑哈"中文分词,更快或更准确,由你来定义.通过简单定制,让分词模块更适用于你的需求. "Ya ...

随机推荐

九度oj 题目1073：杨辉三角形
题目描述: 输入n值,使用递归函数,求杨辉三角形中各个位置上的值. 输入: 一个大于等于2的整型数n 输出: 题目可能有多组不同的测试数据,对于每组输入数据, 按题目的要求输出相应输入n的杨辉三角形. ...
BZOJ 3939 [Usaco2015 Feb]Cow Hopscotch ——线段树 CDQ分治
显然dp[i][j]=ps[i-1][j-1]-sigma(dp[k<i][l<j],a[i][j]=a[k][l]) 考虑对于每一种颜色都开一颗区间线段树,但是空间不够. 所以我们可以动 ...
HDU 1724 Ellipse ——Simpson积分
[题目分析] 一看题目,直接把椭圆积分起来就可以了嘛. 然后发现椭圆比较难积分,还是算了吧. 用Simpson积分硬上. 大概就是用二次函数去拟合面积. [代码] #include <cstdi ...
bzoj3196 二逼平衡树树套树（线段树套Treap）
Tyvj 1730 二逼平衡树 Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 4697 Solved: 1798[Submit][Status][D ...
Java内存区域划分、内存分配原理(深入理解JVM一)
Java虚拟机在执行Java的过程中会把管理的内存划分为若干个不同的数据区域.这些区域有各自的用途,以及创建和销毁的时间,有的区域随着虚拟机进程的启动而存在,而有的区域则依赖线程的启动和结束而创建和销 ...
Codeforces #471
C(分段) 题意: 分析: 我们分别考虑p=2和p>=3的情况当p=2的时候,个数明显是[L,R]内完全平方数的个数当p>=3的时候,我们注意到这样的数字个数是1e6级别的,且a最多也 ...
RabbitMQ 简介以及使用场景
目录一. RabbitMQ 简介二. RabbitMQ 使用场景 1. 解耦(为面向服务的架构(SOA)提供基本的最终一致性实现) 2. 异步提升效率 3. 流量削峰三. 引入消息队列的优缺点 ...
Java到底是值传递还是引用传递
什么是按值传递,什么是按引用传递按值调用(call by value) : 在参数传递过程中,形参和实参占用了两个完全不同的内存空间.形参所存储的内容是实参存储内容的一份拷贝. 按引用调用:在参数传 ...
关于时间，日期，星期，月份的算法（Java中Calendar的使用方法）
原文:http://www.open-open.com/code/view/1446195787257 package cn.outofmemory.codes.Date; import java.u ...
dvm进程，linux进程，应用程序进程是否同一概念
Android 运行环境主要指的虚拟机技术——Dalvik.Android中的所有Java程序都是运行在Dalvik VM上的.Android上的每个程序都有自己的线程,DVM只执行.dex的Dalv ...

Python中文问题研究

Python中文问题研究的更多相关文章

随机推荐

热门专题