python2 编码问题详解

实例对比

定义	type	str	unicode	print	encode('utf8')	decode('utf8')	encode('unicode-escape')	encode('string-escape')	编码推测
a='中'	str	'\x??\x??'	报错	正常	报错	报错	报错	'\\x??\\x??'	ascii
a=u'中'	unicode	报错	u'\u????'	正常	'\x??\x??\x??'	报错	'\\u????'	报错	unicode

ascii --> unicode --> utf-8

ascii：最早的，容量最小的编码方式。1个字节表示一个字符。
unicode：加入多国字符，一般是2个字节表示一个字符，偏僻字用4个字节。缺点：浪费存储空间。
utf-8：为了解决浪费空间的问题，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。

在计算机内存中，统一使用Unicode编码。当需要保存到硬盘或者需要传输的时候，可以转换为UTF-8编码。

1.Python的诞生比Unicode标准发布的时间还要早，所以最早的Python只支持ASCII编码

查看默认编码

>>> import sys

>>> sys.getdefaultencoding()

'ascii'

Python内建的ord()和chr()函数，可以把字母和对应的数字相互转换：

>>> ord('A')

65

>>> chr(65)

'A'

2.Python在后来添加了对Unicode的支持，以Unicode表示的字符串用`u'...'`表示

>>> u'中'

u'\u4e2d'

\u后面是十六进制的Unicode码。

3.unicode --> utf-8

>>> u'ABC'.encode('utf-8')

'ABC'

>>> u'中文'.encode('utf-8')

'\xe4\xb8\xad\xe6\x96\x87'

英文字符转换后表示的UTF-8的值和Unicode值相等（但占用的存储空间变小，2个字节变为1个字节），而中文字符转换后1个Unicode字符转化为UTF-8字符后，两个字节变为3个字节。用len()函数显示，从1个字符长度变为3个字符。

>>> len(u'中')

1

>>> len(u'中'.encode('utf-8'))

3

4.utf-8 --> unicode

>>> 'abc'.decode('utf-8')

u'abc'

>>> test = '\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')

u'\u4e2d\u6587'

>>> print test

中文

5.str --> utf-8

# UTF-8无法解码str

>>> a.decode('utf8')

Traceback (most recent call last):

  File "<stdin>", line 1, in <module>

  File "C:\Python2710\lib\encodings\utf_8.py", line 16, in decode

    return codecs.utf_8_decode(input, errors, True)

UnicodeDecodeError: 'utf8' codec can't decode byte 0xd6 in position 0: invalid continuation byte

# 而用GBK可以解码str

>>> t = a.decode('gbk')

>>> t

u'\u4e2d'

>>> t.encode('utf8')

'\xe4\xb8\xad'

或

>>> t = unicode(a, 'gbk')  # 估计调用了decode方法

>>> t

u'\u4e2d'

>>> t.encode('utf8')

'\xe4\xb8\xad'

读取txt文件

# coding: utf-8

import os

here = os.path.dirname(__file__)

fpath = os.path.join(here, '1.txt')

with open(fpath,'r') as f:

    print type(f)

    ls = f.xreadlines()

    print ls

    for l in ls:

        print l

        print type(l)

结果（说明了读取文件时默认是str）：

<type 'file'>

<open file 'C:\\Users\\weaming\\Desktop\\1.txt', mode 'r' at 0x05574078>

abc

<type 'str'>

中国

<type 'str'>

写入文件

with open(os.path.join(here, '2.txt'), 'w') as f:

    f.write(u'abc\n中文'.encode('utf8'))

可正确写入，显示为正常的“中文”。other-->unicode-->UTF8

如何保存 .py 源代码文件

保存：Python源代码也是一个文本文件，所以，当你的源代码中包含中文的时候，在保存源代码时，就需要务必指定保存为UTF-8编码。
读取：当Python解释器读取源代码时，为了让它按UTF-8编码读取，我们通常在文件开头（第一行或第二行）写上这一行行# -*- coding: utf-8 -*-

终极原则：decode early, unicode everywhere, encode finally

在输入或者声明字符串的时候，尽早地使用decode方法将字符串转化成unicode编码格式；然后在程序内使用字符串的时候统一使用unicode格式进行处理，比如字符串拼接、字符串替换、获取字符串的长度等操作；最后，在输出字符串的时候（控制台/网页/文件），通过encode方法将字符串转化为你所想要的编码格式，比如utf-8等。

参考链接

weaming

python2 编码问题详解的更多相关文章

Java：编码的详解
ASCII:美国信息标准信息码,用一个字节的7为表示. ISO8859-1:拉丁码表欧洲码表 ,用一个字节的8位表示. GB2312:中国的中文编码表. GBK:中国的中文编码表升级,融合了更多的中 ...
python 之编码问题详解
前在一个项目中遇到用post提交一个xml,xml中含有中文,对于单独的py文件,使用urllib2.urlopen完全ok,但在django中使用就一直报编码错误,然后在网上看到这篇文章不错,决定m ...
[转载]Python3编码问题详解
原文:Python3的编码问题 Python3 最重要的一项改进之一就是解决了 Python2 中字符串与字符编码遗留下来的这个大坑.Python 编码为什么那么蛋疼?已经介绍过 Python2 字符 ...
LZ77压缩算法编码原理详解(结合图片和简单代码)
前言 LZ77算法是无损压缩算法,由以色列人Abraham Lempel发表于1977年.LZ77是典型的基于字典的压缩算法,现在很多压缩技术都是基于LZ77.鉴于其在数据压缩领域的地位,本文将结合图 ...
[转]utf8编码原理详解
from : http://blog.csdn.net/baixiaoshi/article/details/40786503 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态 ...
php各种编码集详解和以及在什么情况下进行使用
字符是各种文字和符号的总称,包括各国家文字.标点符号.图形符号.数字等. 字符集是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集.GB2312字符集.B ...
JS编码解码详解
今天在整理 js编码解码方法时,在网上搜资料,发现一篇文章讲的不错,讲解的非常简单明了,于是乎就想转载过来,却发现无法转载到博客园,最后只能卑鄙的摘抄过来.js编码解码就是将一些对URL和数据库敏感的 ...
crawler_URL编码原理详解
经常写爬虫的童鞋,难免要处理含有中文的url,大部分时间,都知道url_encode,各个语言也都有支持,今天简单整理下原理,供大家科普 1.特征: 如果URL中含有非ASCII字符的话, 浏览器会对 ...
计算机编码方式详解（Unicode、UTF-8、UTF-16、ASCII）
整理这篇文章的动机是两个问题: 问题一: 使用Windows记事本的"另存为",可以在GBK.Unicode.Unicode big endian和UTF-8这几种编码方式间相互转 ...

随机推荐

CentOS安装 Docker
系统的要求64 位操作系统,内核版本至少为 3.10. Docker 目前支持 CentOS 6.5 及以后的版本,推荐使用 CentOS 7 系统. cat /proc/version 首先,也是要 ...
C# 操作XML 如果不存在创建存在直接追加
#region 写操作日志----------------这种格式 //<Log 操作人="Admin" 操作结果="成功" 结果详情="数据导 ...
Mongodb解决不能连接到服务器的错误
注:这次解决的这个问题的前提是之前打开MongoDB之后,再次使用的时候无法连接了(使用mongod和mongo都不对) 闲话:遇到这种问题真是让人恼火,所以说句sun of beach,好了~爽正 ...
html5文本框提示文字属性为placeholder
html5文本框提示文字属性为placeholder 例子: <textarea id="comment" class="commentCont" n ...
数学对象Math ceil()、floor()、round()方法
Math.ceil() 功能:对一个数进行上取整. 语法:Math.ceil(x) 参数: x:一个数值. 返回值:返回大于或等于x,并且与之最接近的整数. 注:如果x是正数,则把小数“入”: ...
Question2Answer初体验
Question2Answer初体验高质量的问答社区十分有价值,很多无法解决的问题能通过问答社区找到解决办法,而对于站长来说,垂直的问答社区也很有潜力.最近盯上问答这一块,发现和我的一些思路很符 ...
JAVA设计模式--strategy(策略者模式)
概念策略模式定义了一系列的算法,并将每一个算法封装起来,而且使它们还可以相互替换.策略模式让算法独立于使用它的客户而独立变化.(原文:The Strategy Pattern defines a fa ...
020ARM家族
1.名称:6410.2440.210.A8.ARM9.ARM11.armv7.ARMv6(v:vsersion) 芯片的名称:6410.210.2440都是属于芯片的名称,都是来自三星公司: ARM核 ...
[原]Python 简单文件处理
仅仅是为了Linux操作方便= =命令行最近没有时间仔细看看,电脑一直都在机房,暂且这般记着吧= = spath="D:/download/baa.txt" f=open(spat ...
boost:进程管理
概述 Boost.Process提供了一个灵活的C++ 进程管理框架.它允许C++ developer可以像Java和.Net程序developer那样管理进程.它还提供了管理当前执行进程上下文.创建 ...