python 中的 unicode是让人很困惑、比较难以理解的问题. 这篇文章 写的比较好,utf-8是 unicode的一种实现方式,unicode、gbk、gb2312是编码字符集.

py文件中的编码

Python 默认脚本文件都是 ANSCII 编码的,当文件 中有非 ANSCII 编码范围内的字符的时候就要使用"编码指示"来修正一个 module 的定义中,如果.py文件中包含中文字符(严格的说是含有非anscii字符),则需要在第一行或第二行指定编码声明:# -*- coding=utf-8 -*- 或者 #coding=utf-8
其他的编码如:gbk、gb2312也可以;否则会出现:

SyntaxError: Non-ASCII character '\xe4' in file test.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

python中的编码与解码

先说一下python中的字符串类型,在python中有两种字符串类型,分别是 str 和 unicode,他们都是basestring的派生类;

  • str类型是一个包含Characters represent (at least) 8-bit bytes的序列;
  • unicode 的每个 unit 是一个 unicode obj;

在str的文档中有这样的一句话:

The string data type is also used to represent arrays of bytes, e.g., to hold data read from a file.

也就是说在读取一个文件的内容,或者从网络上读取到内容时,保持的对象为str类型;如果想把一个str转换成特定编码类型,需要把str转为Unicode,然后从unicode转为特定的编码类型如:utf-8、gb2312等。

python 编码转换函数

unicode 转为 gb2312,utf-8等,使用 encode(encoding)

  1. # -*- coding=UTF-8 -*-
  2. if __name__ == '__main__':
  3. s = u'中国'
  4. s_gb = s.encode('gb2312')

utf-8,GBK转换为 unicode 使用 unicode(s,encoding) 或者 s.decode(encoding)

  1. #coding=UTF-8
  2. if __name__ == '__main__':
  3. s = u'中国'
  4. #s为unicode先转为utf-8
  5. s_utf8 = s.encode('UTF-8')
  6. assert(s_utf8.decode('utf-8') == s)

普通的 str 转为 unicode,

  1. #coding=UTF-8
  2. if __name__ == '__main__':
  3. s = '中国'
  4. su = u'中国''
  5. #s为unicode先转为utf-8
  6. #因为s为所在的.py(# -*- coding=UTF-8 -*-)编码为utf-8
  7. s_unicode = s.decode('UTF-8')
  8. assert(s_unicode == su)
  9. #s转为gb2312:先转为unicode再转为gb2312
  10. s.decode('utf-8').encode('gb2312')

如果直接执行s.encode('gb2312')会发生什么?

  1. #coding=UTF-8
  2. if __name__ == '__main__':
  3. s = '中国'
  4. s.encode('gb2312')

这里会发生一个异常:Python 会自动的先将 s 解码为 unicode ,然后再编码成 gb2312。因为解码是python自动进行的,我们没有指明解码方式,python 就会使用 sys.defaultencoding 指明的方式来解码。很多情况下 sys.defaultencoding 是 ANSCII,如果 s 不是这个类型就会出错。
拿上面的情况来说,我的 sys.defaultencoding 是 anscii,而 s 的编码方式和文件的编码方式一致,是 utf8 的,所以出错了:

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

对于这种情况,我们有两种方法来改正错误:

  • 明确的指示出 s 原来的编码方式

    1. #!/usr/bin/env python
    2. #-*- coding: utf-8 -*-
    3. s = '中文'
    4. s.decode('utf-8').encode('gb2312')
  • 更改 sys.defaultencoding 为文件的编码方式

    1. #! /usr/bin/env python
    2. # -*- coding: utf-8 -*-
    3. import sys
    4. reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法,我们需要重新载入
    5. sys.setdefaultencoding('utf-8')
    6. str = '中文'
    7. str.encode('gb2312')

文件编码与print函数

建立一个文件test.txt,文件格式用ANSI,内容为:"abc中文",用python来读取

  1. # coding=gbk
  2. print open("Test.txt").read()

结果:abc中文

把文件格式改成UTF-8:
结果:abc涓 枃

显然,这里需要解码:

  1. # coding=gbk
  2. import codecs
  3. print open("Test.txt").read().decode("utf-8")

结果:abc中文

上面的test.txt我是用Editplus来编辑的,但当我用Windows自带的记事本编辑并存成UTF-8格式时,运行时报错:

  1. Traceback (most recent call last):
  2. File "ChineseTest.py", line 3, in <module>
  3. print open("Test.txt").read().decode("utf-8")
  4. UnicodeEncodeError: 'gbk' codec can't encode character u'\ufeff' in position 0: illegal multibyte sequence

原来,某些软件,如notepad,在保存一个以UTF-8编码的文件时,会在文件开始的地方插入三个不可见的字符(0xEF 0xBB 0xBF,即BOM)。因此我们在读取时需要自己去掉这些字符,python中的codecs module定义了这个常量:

  1. # coding=gbk
  2. import codecs
  3. data = open("Test.txt").read()
  4. if data[:3] == codecs.BOM_UTF8:
  5. data = data[3:]
  6. print data.decode("utf-8")

结果:abc中文

一点遗留问题

在第二部分中,我们用unicode函数和decode方法把str转换成unicode。为什么这两个函数的参数用"gbk"呢?第一反应是我们的编码声明里用了gbk(# coding=gbk),但真是这样?修改一下源文件:

  1. # coding=utf-8
  2. s = "中文"
  3. print unicode(s, "utf-8")

运行,报错:

  1. Traceback (most recent call last):
  2. File "ChineseTest.py", line 3, in <module>
  3. s = unicode(s, "utf-8")
  4. UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data

显然,如果前面正常是因为两边都使用了gbk,那么这里我保持了两边utf-8一致,也应该正常,不至于报错。
更进一步的例子,如果我们这里转换仍然用gbk:

  1. # coding=utf-8
  2. s = "中文"
  3. print unicode(s, "gbk")

结果:中文

翻阅了一篇英文资料,它大致讲解了python中的print原理:

When Python executes a print statement, it simply passes the output to the operating system (using fwrite() or something like it), and some other program is responsible for actually displaying that output on the screen. For example, on Windows, it might be the Windows console subsystem that displays the result. Or if you're using Windows and running Python on a Unix box somewhere else, your Windows SSH client is actually responsible for displaying the data. If you are running Python in an xterm on Unix, then xterm and your X server handle the display.To print data reliably, you must know the encoding that this display program expects.

简单地说,python中的print直接把字符串传递给操作系统,所以你需要把str解码成与操作系统一致的格式。Windows使用CP936(几乎与gbk相同),所以这里可以使用gbk。最后测试:

  1. # coding=utf-8
  2. s = "中文"
  3. print unicode(s, "cp936")

结果:中文

python 编码 检测

使用 chardet 可以很方便的实现字符串/文件的编码检测,例子如下:

  1. >>>import urllib
  2. >>>rawdata = urllib.urlopen('http://www.google.cn/').read()
  3. >>>import chardet
  4. >>>chardet.detect(rawdata)
  5. {'confidence': 0.98999999999999999, 'encoding': 'GB2312'}

在工作中,经常遇到,读取一个文件,或者是从网页获取一个问题,明明看着是gb2312的编码,可是当使用decode转时,总是出错,这个时候,可以使用decode('gb18030')这个字符集来解决,如果还是有问题,这个时候,一定要注意,decode还有一个参数,比如,若要将某个 String对象s从gbk内码转换为UTF-8,可以如下操作
s.decode('gbk').encode('utf-8′)
可是,在实际开发中,我发现,这种办法经常会出现异常:

UnicodeDecodeError: ‘gbk' codec can't decode bytes in position 30664-30665: illegal multibyte sequence

这是因为遇到了非法字符——尤其是在某些用C/C++编写的程序中,全角空格往往有多种不同的实现方式,比如\xa3\xa0,或者\xa4\x57,这些字符,看起来都是全角空格,但它们并不是“合法”的全角空格(真正的全角空格是\xa1\xa1),因此在转码的过程中出现了异常。这样的问题很让人头疼,因为只要字符串中出现了一个非法字符,整个字符串——有时候,就是整篇文章——就都无法转码。 解决办法:
s.decode('gbk', ‘ignore').encode('utf-8′)
因为decode的函数原型是 decode([encoding], [errors='strict']),可以用第二个参数控制错误处理的策略,默认的参数就是strict,代表遇到非法字符时抛出异常;

    • 如果设置为ignore,则会忽略非法字符;
    • 如果设置为replace,则会用?取代非法字符;
    • 如果设置为xmlcharrefreplace,则使用XML的字符引用。

Python 编码转换与中文处理的更多相关文章

  1. Python开发【第三章】:Python编码转换

    一.字符编码与转码 1.bytes和str 之前有学过关于bytes和str之间的转换,详细资料->bytes和str(第四字符串) 2.为什么要进行编码和转码 由于每个国家电脑的字符编码格式不 ...

  2. python 编码转换(转)

    主要介绍了python的编码机制,unicode, utf-8, utf-16, GBK, GB2312,ISO-8859-1 等编码之间的转换. 常见的编码转换分为以下几种情况: 自动识别 字符串编 ...

  3. python 编码转换 专题

    主要介绍了python的编码机制,unicode, utf-8, utf-16, GBK, GB2312,ISO-8859-1 等编码之间的转换. 常见的编码转换分为以下几种情况: 自动识别 字符串编 ...

  4. python编码转换

    Pyton内部的字符串一般都是unicode编码或字节字符串编码:代码中字符串的默认编码与代码文件本身的编码是一致的:编码转换通常需要以unicode编码作为中间编码进行转换,即先将其他编码的字符串解 ...

  5. java 中文转换成Unicode编码和Unicode编码转换成中文

    转自:一叶飘舟 http://blog.csdn.net/jdsjlzx/article/details/ package lia.meetlucene; import java.io.IOExcep ...

  6. Java实现 中文转换成Unicode编码 和 Unicode编码转换成中文

    想要实现中文字符转换为Unicode编码的话主要用到的是一个这样的包,自己可以去API文档里面查看下的 java.util.Properties; 直接进入主题吧,主要是 package Test01 ...

  7. Python之路3【知识点】白话Python编码和文件操作

    Python文件头部模板 先说个小知识点:如何在创建文件的时候自动添加文件的头部信息! 通过:file--settings 每次都通过file--setings打开设置页面太麻烦了!可以通过:View ...

  8. 关于Python编码问题小记

    Python编码问题小记: 引子: 最近在复习redis,当我在获取redis的key的时候,redis 存储英文和汉字下面这个样子的,我知道汉字是用16进制的UTF-8编码了,然后突然很想搞清楚字符 ...

  9. python编码总结

    关于ASCII码和Unicode码的来源 计算机只能处理数字,如果要处理文本,需要先将文本转换成数字.早期计算机采用8bit作为一个字节(byte).所以一个字节最大为255(二进制11111111= ...

随机推荐

  1. odoo 分组视图下显示同一批次记录的总数

    修改前: 修改后: xml文件: <?xml version="1.0" encoding="utf-8"?> <!-- vim:fdn=3: ...

  2. day33 序列类型,绑定方法,类方法,静态方法,封装继承和多态

    Python之路,Day20 = 序列类型,绑定方法,类方法,静态方法,封装继承和多态 序列是指有序的队列,重点在"有序". 一.Python中序列的分类 Python中的序列主要 ...

  3. kubernetes 强制删除istio-system空间,强制删除pod

    加上这个选项 --grace-period=0 --force--grace-period=0 --force 先删除deployment,pod,svc再删除namespace > kubec ...

  4. BZOJ 1296(SCOI 2009) 粉刷匠

    1296: [SCOI2009]粉刷匠 Time Limit: 10 Sec Memory Limit: 162 MB Submit: 2544 Solved: 1466 [Submit][Statu ...

  5. Installer - Eclipse配置Data Source Explorer

    一.配置Oracle数据库连接 1.打开配置窗口 在[window]菜单中的[show windows]选择[other],在弹出的窗口中选择[Data Source Explorer]进行数据数据库 ...

  6. requests 返回 521

    网页端抓数据免不了要跟JavaScript打交道,尤其是JS代码有混淆,对cookie做了手脚.找到cookie生成的地方要费一点时间. 那天碰到这样一个网页,用浏览器打开很正常.然而用request ...

  7. Java中循环体的初步了解以及另一种随机数的获取方法

    Math中的相关操作 随机数 Java中除了可以直接导入Random类,获取随机数,还可以通过本身自带的Math方法去获取随机数.Math.random()可以产生随机小数,区间范围为[0.0,1.0 ...

  8. <day004>小娜显示空白+CSV文件的基本操作+普通的代理使用

    小知识: 当小娜搜索显示空白的时候,怎么解决? 任务管理器结束小娜进程就好了= =*(多半是惯得,关掉就好了!) 任务1:CSV文件的基本操作 import csv import pandas as ...

  9. 编写main方法

  10. springBoot_JPA和lombok

    一.JPA 特点:JPA可以根据方法名自动匹配sql语句. JPA是一个标准 Hibernate是JPA的一个实现,宗旨是尽量少写sql语句. 使用JPA 1.application.properti ...