Python 2.7 学习笔记中文处理

首先我们在编写python代码文件时，文件本身会采用一种编码格式，如 utf-8 或 gbk

这时我们需要在python文件的开头设置文件的编码格式，以告诉编译器。

如果文件的编码格式是 utf-8, 则在文件的第一行需要添加如下语句

#coding=utf-8

如果文件的编码格式是 gbk, 则在文件的第一行需要添加如下语句

#coding=gbk

如果设置为utf-8的格式，在linux执行，中文处理，包括显示没任何问题。

但是如果设置为utf-8的格式，在window下，在命令行下执行时，发现利用 print打印中文会出现乱码。

原因是因为，虽然文件声明为utf-8，且用utf-8的编码保存的源文件。但是windows的本地默认编码是cp936，也就是gbk编码，所以在控制台直接打印utf-8的字符串就显示乱码了。注意，实际上只是显示有问题，入库等处理并没问题。

这有两种解决方案。

一、方案一：

将文件的编码格式改为gbk，并在文件的第一行改为#coding=gbk，这时处理中文就没问题。

但这个方案带来的问题，如果该文件放到Linux下可能会显示出问题。因为一般linux机器下没有gbk的字符集。

二、方案二

文件还是采用utf-8的编码，文件头的第一行依然是#coding=utf-8

这时在print 中文时需要进行下编码，代码如：

print "中文".decode('utf-8').encode(sys.getfilesystemencoding())

注意：因为用到了sys模块，需要在语句执行添加 import sys

这样带来的问题，print语句比较臃肿，可以考虑自己封装下.

三、关于 decode 方法和 encode 方法

字符串在Python内部的表示是unicode编码。在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码，其参数就是字符串的当前编码格式。如str.decode('utf-8')，表示将utf-8编码的字符串转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串，其参数就是希望转换后的编码格式。如str.encode('utf-8')，表示将unicode编码的字符串转换成utf-8编码。

不能直接将一种编码（非unicode）的字符串利用encode方法直接转换为其它的编码格式。

注意：unicode 和其它的编码字符串在python 是完全不同的两种数据类型，unicode的字符串时unicode类型的，其它的是str类型。

在python中，对于字面字符串我们可以在字面字符串前加u把该字符串声明为unicode类型的。

下面我们来看一个例子了解unicode和str类型的区别

>>> s='测试'

>>> us=u'测试unicode'

>>> print isinstance(s,str)

True

>>> print isinstance(s,unicode)

False

>>> print isinstance(us,str)

False

>>> print isinstance(us,unicode)

True

>>> print isinstance(us.encode('utf-8'),unicode)

False

>>> print isinstance(us.encode('utf-8'),str)

True

>>> print isinstance(s.decode('gbk'),unicode) #是在windows下执行，默认的s是gbk编码

True

利用第三方包 chardet的detect方法可以检查一个字符串具体的编码格式，如：

>>> import chardet

>>> chardet.detect('中文')

{'confidence': 0.682639754276994, 'encoding': 'KOI8-R'} #在window下执行的

>>> chardet.detect('str123')

{'confidence': 1.0, 'encoding': 'ascii'}

>>> chardet.detect(u'中文')   #无法对unicode类型进行检查

Traceback (most recent call last):

  File "<stdin>", line 1, in <module>

  File "C:\Anaconda2\lib\site-packages\chardet\__init__.py", line 25, in de

    raise ValueError('Expected a bytes object, not a unicode object')

ValueError: Expected a bytes object, not a unicode object

>>> chardet.detect(u'中文'.encode('utf8'))  #参数为utf-8的

{'confidence': 0.7525, 'encoding': 'utf-8'}

四、与中文相关的常见处理场景

在程序编写中，一般涉及到中文我们才需要编解码。通常有如下几种场景：

1、将文件中硬编码的中文字符串利用print输出，就如上面介绍的例子：

str = "中文"

print str

str = str.decode('utf-8').encode(sys.getfilesystemencoding())

print str

上面的代码假设文件的编码格式为utf-8，当在windows命令行下执行时，第一个print语句输出的是乱码。

我们先调用decode方法将其转为 unicode编码，然后在调用encode方法转为系统编码的格式。

2、当我们用raw_input从控制台获取字符串时

这时获取到的字符串的编码时系统编码，不一定是utf-8,这时我们想要转为utf-8，可以用如下的方法

msg = raw_input(">")
msg = msg.decode(sys.getfilesystemencoding()).encode('utf-8')

上面代码先将字符串解码成unicode编码，再编码成utf-8

3、列表或字典中的中文处理

data = {"a":"hello","b":"中国"} #假设是utf-8的格式

这时我们用print直接输出data, 或用str函数将data转为字符串。其中的中文是变成unicode的字符，如：

>>> data = {"a":"hello","b":"中国"}
>>> print data
{'a': 'hello', 'b': '\xd6\xd0\xb9\xfa'}

单独输出中文字段没问题，如

>>> print data['b']
中国

如果希望能正常的将整个字典输出，可以利用json包的dump方法，如：

>>> data = {"a":"hello","b":"中国"}
>>> s = json.dumps(data,ensure_ascii=False);
>>> print s
{"a": "hello", "b": "中国"}

>>> print isinstance(s,str)
True

4、当我们利用os的相关方法时，传入的字符串编码需要与系统一致，如：

filename = "D:/测试.txt"; # 假设是utf-8的格式

filename = filename.decode("utf-8").encode(sys.getfilesystemencoding()); #转为当前系统字符集

re = os.path.exists(filename) # 检查文件是否存在，必须要上面的先转换为当前系统字符集才会正确

filename = filename.decode(sys.getfilesystemencoding()).encode("utf-8"); #重新转为utf-8

Python 2.7 学习笔记中文处理的更多相关文章

Requests:Python HTTP Module学习笔记（一）（转）
Requests:Python HTTP Module学习笔记(一) 在学习用python写爬虫的时候用到了Requests这个Http网络库,这个库简单好用并且功能强大,完全可以代替python的标 ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
Python Built-in Function 学习笔记
Python Built-in Function 学习笔记 1. 匿名函数 1.1 什么是匿名函数 python允许使用lambda来创建一个匿名函数,匿名是因为他不需要以标准的方式来声明,比如def ...
python数据分析入门学习笔记
学习利用python进行数据分析的笔记&下星期二内部交流会要讲的内容,一并分享给大家.博主粗心大意,有什么不对的地方欢迎指正~还有许多尚待完善的地方,待我一边学习一边完善~ 前言:各种和数据分 ...
python数据分析入门学习笔记儿
学习利用python进行数据分析的笔记儿&下星期二内部交流会要讲的内容,一并分享给大家.博主粗心大意,有什么不对的地方欢迎指正~还有许多尚待完善的地方,待我一边学习一边完善~ 前言:各种和数据 ...
Python快速入门学习笔记（二）
注:本学习笔记参考了廖雪峰老师的Python学习教程,教程地址为:http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb49318210 ...
python网络爬虫学习笔记（二）BeautifulSoup库
Beautiful Soup库也称为beautiful4库.bs4库,它可用于解析HTML/XML,并将所有文件.字符串转换为'utf-8'编码.HTML/XML文档是与“标签树一一对应的.具体地说, ...
Python之xml学习笔记
XML处理模块 xml是实现不同语言或程序之间进行数据交换的协议,跟json差不多,但json使用起来更简单,至今很多传统公司如金融行业的很多系统的接口还主要是xml. xml的格式如下,就是通过&l ...
python网络爬虫学习笔记（一）Request库
一.Requests库的基本说明引入Rquests库的代码如下 import requests 库中支持REQUEST, GET, HEAD, POST, PUT, PATCH, DELETE共7个 ...

随机推荐

基于mini2440的看门狗（裸机）
在由单片机构成的微型计算机系统中,由于单片机的工作常常会受到来自外界电磁场的干扰,造成程序的跑飞,而陷入死循环,程序的正常运行被打断,由单片机控制的系统无法继续工作,会造成整个系统的陷入停滞状态,发生 ...
.NET + Jcrop 实现在线裁图功能
最近有这样一个需求,因为一个门户网站首页展示图片很长但很矮,自己截图怕有不到位,所以利用JQUERY 的 Jcrop组件做了一个在线裁图的功能. 初始化 $('#oldpicImg').Jcrop({ ...
Android基础之在Eclipes中关联SDK源码和查看SDK源码
在进行Android应用开发的时候,我们有时候需要查看某个类或接口的源码从而了解如何去使用一个类或者实现一个接口,查看源码有助于我们的学习某个封装的类的底层是如何实现的,这样可以帮助我们掌握类或者接口 ...
Jquery ajax调用后台aspx后台文件方法(不是ashx)
在asp.net webForm开发中,用Jquery ajax调用aspx页面的方法常用的有两种:下面我来简单介绍一下. (1)通过aspx.cs的静态方法+WebMethod进行处理简单的介绍下 ...
ASP.NET之电子商务系统开发-4(二级分类)
一.前言继上次的订单,这是第四篇.记录一下分类和筛选.这功能是最后做的,因为我完全不懂其原理.后来通过同学的指导(一位很有天赋的同学,比我牛逼一个层次,同样是高三.:D),终于也是完成了.在写这篇博 ...
Problem F: Exponentiation
Problem F: ExponentiationTime Limit: 1 Sec Memory Limit: 128 MBSubmit: 4 Solved: 2[Submit][Status][W ...
MySql每月增加一个分区以及查询所有分区
create PROCEDURE Usp_Partition() BEGIN DECLARE _time datetime; DECLARE num int; DECLARE _p VARCHAR(2 ...
codeforcese 498C. Array and Operations 网络流
题目链接给n个数, m个数对, 每个数对是两个下标加起来为奇数的两个数.每次操作可以使一个数对中的两个数同时除某个数, 除的这个数是这两个数的任意约数, 问这种操作最多可以做几次.n<100, ...
python自学笔记（二）python基本数据类型之字符串处理
一.数据类型的组成分3部分:身份.类型.值身份:id方法来看它的唯一标识符,内存地址靠这个查看类型:type方法查看值:数据项二.常用基本数据类型 int 整型 boolean 布尔型 str ...
c语言(3)--运算符&表达式&语句
计算机的本职工作是进行一系列的运算,C语言为不同的运算提供了不同的运算符! 1.那些运算符们 .基本运算符算术运算符:+ - * / % ++ -- 赋值运算符:= 逗号运算符:, 关系运算符:& ...

Python 2.7 学习笔记 中文处理

Python 2.7 学习笔记 中文处理的更多相关文章

随机推荐

热门专题

Python 2.7 学习笔记中文处理

Python 2.7 学习笔记中文处理的更多相关文章