Python 2.7 学习笔记 中文处理
首先我们在编写python代码文件时,文件本身会采用一种编码格式,如 utf-8 或 gbk
这时我们需要在python文件的开头设置文件的编码格式,以告诉编译器。
如果文件的编码格式是 utf-8, 则在文件的第一行需要添加如下语句
#coding=utf-8
如果文件的编码格式是 gbk, 则在文件的第一行需要添加如下语句
#coding=gbk
如果设置为utf-8的格式,在linux执行,中文处理,包括显示没任何问题。
但是如果设置为utf-8的格式,在window下,在命令行下执行时,发现利用 print打印中文会出现乱码。
原因是因为,虽然文件声明为utf-8,且用utf-8的编码保存的源文件。但是windows的本地默认编码是cp936,也就是gbk编码,所以在控制台直接打印utf-8的字符串就显示乱码了。 注意,实际上只是显示有问题,入库等处理并没问题。
这有两种解决方案。
一、方案一:
将文件的编码格式改为gbk,并在文件的第一行改为#coding=gbk,这时处理中文就没问题。
但这个方案带来的问题,如果该文件放到Linux下可能会显示出问题。因为一般linux机器下没有gbk的字符集。
二、方案二
文件还是采用utf-8的编码,文件头的第一行依然是#coding=utf-8
这时在print 中文时需要进行下编码,代码如:
print "中文".decode('utf-8').encode(sys.getfilesystemencoding())
注意:因为用到了sys模块,需要在语句执行添加 import sys
这样带来的问题,print语句比较臃肿,可以考虑自己封装下.
三、关于 decode 方法和 encode 方法
字符串在Python内部的表示是unicode编码。在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。
decode的作用是将其他编码的字符串转换成unicode编码, 其参数就是字符串的当前编码格式。如str.decode('utf-8'),表示将utf-8编码的字符串转换成unicode编码。
encode的作用是将unicode编码转换成其他编码的字符串, 其参数就是希望转换后的编码格式。如str.encode('utf-8'),表示将unicode编码的字符串转换成utf-8编码。
不能直接将一种编码(非unicode)的字符串利用encode方法直接转换为其它的编码格式。
注意:unicode 和 其它的编码字符串在python 是完全不同的两种数据类型,unicode的字符串时unicode类型的, 其它的是str类型。
在python中,对于字面字符串我们可以在字面字符串前加u把该字符串声明为unicode类型的。
下面我们来看一个例子了解unicode和str类型的区别
- >>> s='测试'
- >>> us=u'测试unicode'
- >>> print isinstance(s,str)
- True
- >>> print isinstance(s,unicode)
- False
- >>> print isinstance(us,str)
- False
- >>> print isinstance(us,unicode)
- True
- >>> print isinstance(us.encode('utf-8'),unicode)
- False
- >>> print isinstance(us.encode('utf-8'),str)
- True
- >>> print isinstance(s.decode('gbk'),unicode) #是在windows下执行,默认的s是gbk编码
- True
利用第三方包 chardet的detect方法可以检查一个字符串具体的编码格式,如:
- >>> import chardet
- >>> chardet.detect('中文')
- {'confidence': 0.682639754276994, 'encoding': 'KOI8-R'} #在window下执行的
- >>> chardet.detect('str123')
- {'confidence': 1.0, 'encoding': 'ascii'}
- >>> chardet.detect(u'中文') #无法对unicode类型进行检查
- Traceback (most recent call last):
- File "<stdin>", line 1, in <module>
- File "C:\Anaconda2\lib\site-packages\chardet\__init__.py", line 25, in de
- raise ValueError('Expected a bytes object, not a unicode object')
- ValueError: Expected a bytes object, not a unicode object
- >>> chardet.detect(u'中文'.encode('utf8')) #参数为utf-8的
- {'confidence': 0.7525, 'encoding': 'utf-8'}
四、与中文相关的常见处理场景
在程序编写中,一般涉及到中文我们才需要编解码。 通常有如下几种场景:
1、将文件中硬编码的中文字符串利用print输出,就如上面介绍的例子:
str = "中文"
print str
str = str.decode('utf-8').encode(sys.getfilesystemencoding())
print str
上面的代码假设文件的编码格式为utf-8,当在windows命令行下执行时,第一个print语句输出的是乱码。
我们先调用decode方法将其转为 unicode编码,然后在调用encode方法转为系统编码的格式。
2、当我们用raw_input从控制台获取字符串时
这时获取到的字符串的编码时系统编码,不一定是utf-8,这时我们想要转为utf-8,可以用如下的方法
msg = raw_input(">")
msg = msg.decode(sys.getfilesystemencoding()).encode('utf-8')
上面代码先将字符串解码成unicode编码,再编码成utf-8
3、列表或字典中的中文处理
data = {"a":"hello","b":"中国"} #假设是utf-8的格式
这时我们用print直接输出data, 或用str函数将data转为字符串。其中的中文是变成unicode的字符,如:
>>> data = {"a":"hello","b":"中国"}
>>> print data
{'a': 'hello', 'b': '\xd6\xd0\xb9\xfa'}
单独输出中文字段没问题,如
>>> print data['b']
中国
如果希望能正常的将整个字典输出,可以利用json包的dump方法,如:
>>> data = {"a":"hello","b":"中国"}
>>> s = json.dumps(data,ensure_ascii=False);
>>> print s
{"a": "hello", "b": "中国"}
>>> print isinstance(s,str)
True
4、当我们利用os的相关方法时,传入的字符串编码需要与系统一致,如:
filename = "D:/测试.txt"; # 假设是utf-8的格式
filename = filename.decode("utf-8").encode(sys.getfilesystemencoding()); #转为当前系统字符集
re = os.path.exists(filename) # 检查文件是否存在,必须要上面的先转换为当前系统字符集才会正确
filename = filename.decode(sys.getfilesystemencoding()).encode("utf-8"); #重新转为utf-8
Python 2.7 学习笔记 中文处理的更多相关文章
- Requests:Python HTTP Module学习笔记(一)(转)
Requests:Python HTTP Module学习笔记(一) 在学习用python写爬虫的时候用到了Requests这个Http网络库,这个库简单好用并且功能强大,完全可以代替python的标 ...
- python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
- Python Built-in Function 学习笔记
Python Built-in Function 学习笔记 1. 匿名函数 1.1 什么是匿名函数 python允许使用lambda来创建一个匿名函数,匿名是因为他不需要以标准的方式来声明,比如def ...
- python数据分析入门学习笔记
学习利用python进行数据分析的笔记&下星期二内部交流会要讲的内容,一并分享给大家.博主粗心大意,有什么不对的地方欢迎指正~还有许多尚待完善的地方,待我一边学习一边完善~ 前言:各种和数据分 ...
- python数据分析入门学习笔记儿
学习利用python进行数据分析的笔记儿&下星期二内部交流会要讲的内容,一并分享给大家.博主粗心大意,有什么不对的地方欢迎指正~还有许多尚待完善的地方,待我一边学习一边完善~ 前言:各种和数据 ...
- Python快速入门学习笔记(二)
注:本学习笔记参考了廖雪峰老师的Python学习教程,教程地址为:http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb49318210 ...
- python网络爬虫学习笔记(二)BeautifulSoup库
Beautiful Soup库也称为beautiful4库.bs4库,它可用于解析HTML/XML,并将所有文件.字符串转换为'utf-8'编码.HTML/XML文档是与“标签树一一对应的.具体地说, ...
- Python之xml学习笔记
XML处理模块 xml是实现不同语言或程序之间进行数据交换的协议,跟json差不多,但json使用起来更简单,至今很多传统公司如金融行业的很多系统的接口还主要是xml. xml的格式如下,就是通过&l ...
- python网络爬虫学习笔记(一)Request库
一.Requests库的基本说明 引入Rquests库的代码如下 import requests 库中支持REQUEST, GET, HEAD, POST, PUT, PATCH, DELETE共7个 ...
随机推荐
- S3C6410嵌入式应用平台构建(一)
[2014-4/8~4/10]目前我们已经积累一定的嵌入式相关知识,对嵌入式的架构及开发过程有了大体了解,唯一缺的就是实践,通过自己的分析搭建自己的嵌入式系统.下面,我将从此处开始记录我和我同学一起分 ...
- BingMap的GeocodeService进行地理位置正向和反向检索--后台实现
一.加入GeocodeService的Web服务引用 地理编码服务(GeocodeService)是以WCF技术公布的一个Web服务,地图编码服务提供了以一个有效的物理地址在地图上匹配其相应的地图地址 ...
- ios学习Day3xiawu
switch #include <stdio.h> int main(int argc, char * argv[]) { int i; scanf("%d",& ...
- 刚开始学HTML自己做的,求大神些多多指教。
!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> ...
- window.showModalDialog刷新父窗口和本窗口的方法及注意
window.showModalDialog刷新父窗口和本窗口的方法及注意: 一.刷新父窗口的方法: A.使用window.returnValue给父窗口传值,然后根据值判断是否刷新. 在w ...
- LINQ实现行列转换
用SQL语句实现行列转换很容易,但也有时候需要在程序中实现,找了好久,发现一篇文章写的挺不错的 http://blog.csdn.net/smartsmile2012/article/details/ ...
- table边框不显示
今日在做报表的时候发现,最后一行隐藏后整个报表的下边框会不显示,猜测是td的边框隐藏后但table并未设置边框,导致下边框没有出现.因此设置了table边框后问题解决.table和td的边框关系如下实 ...
- 【转】QT QString, wchar_t *, TCHAR, CString和其他字符或字符串类型的转化
//QString to wchar_t *: const wchar_t * encodedName = reinterpret_cast<const wchar_t *>(fileNa ...
- .net 基础错误-string.replace 方法
1.string string.Replace(string oldValue,string newValue) 返回一个新的字符串,其中当前示例中出现的所有指定字符串都替换另一个指定字符串 错误:总 ...
- A Byte of Python 笔记(7)数据结构:列表、元组、字典,序列
第9章 数据结构 数据结构,即可以处理一些数据的结构.或者说,它们是用来存储一组相关数据的. python 有三种内建的数据结构--列表.元组和字典. list = ['item1', 'item2' ...