Python中文

在python中有两种默认的字符串：str和unicode。在Python中一定要注意区分“Unicode字符串”和"Unicode对象”的区别。

后面所有的“Unicode字符串”都是指"Unicode对象”。

一个传统的字符串完全可以用str对象表示，它仅仅是一个字节流，除非解码为unicode对象，否则没有任何实际意义。

一开始先上例子

>>> s='哈哈'

>>> s

'\xe5\x93\x88\xe5\x93\x88'

>>> type(s)

<type 'str'>

>>>

>>> ss = u'哈哈'

>>> ss

u'\u54c8\u54c8'

>>> type(ss)

<type 'unicode'>

ss声明为unicode

>>> u = s.decode('utf8')

>>> u

u'\u54c8\u54c8'

>>> print u

哈哈

>>>

>>> u = s.decode('utf-16')

>>>

>>> u

u'\u93e5\ue588\u8893'

>>> print u

鏥袓

将字符串s(utf8编码)使用decode进行解码后，可以得到同等得unicode对象，和直接声明为unicode的ss一样

>>> u=ss.decode('utf8')

Traceback (most recent call last):

  File "<stdin>", line 1, in <module>

  File "/usr/local/sinasrv2/lib/python2.7/encodings/utf_8.py", line 16, in decode

    return codecs.utf_8_decode(input, errors, True)

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

>>> u=ss.encode('utf8')

>>> u

'\xe5\x93\x88\xe5\x93\x88'

>>> print u

哈哈

可以将unicode对象编码encode成其他字符集，不能进行解码decode，decode是针对utf8、GBK编码来说的

下面再给一个例子进行说明：

1、先声明一个unicode对象

2、将其编码成gbk

3、直接print出现不显示

4、使用decode解码成GBK，正确显示

>>> ss = u'哈哈'

>>> ss

u'\u54c8\u54c8'

>>> t = ss.encode('gbk')

>>> t

'\xb9\xfe\xb9\xfe'

>>> print t

 >>>

>>> print t.decode('gbk')

哈哈

序列化unicode对象

>>> str(ss)

Traceback (most recent call last):

  File "<stdin>", line 1, in <module>

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

向文件直接输出ss会抛异常。在处理unicode中文字符串的时候，必须首先对它调用encode函数，转换成其他编码输出。

总结：在Python中，str对象就是一个字节数组，至于里面的内容是不是一个合法的字符串，以及这个字符串采用什么编码都不重要。

这些内容需要用户自己记录和判断。这个限制也同样适用于unicode对象。要记住unicode对象中的内容可绝对不一定就是合法的unicode字符串。

【参考链接】

1、http://blog.csdn.net/mayflowers/article/details/1568852

Python中文的更多相关文章

【原】python中文文本挖掘资料集合
这些网址是我在学习python中文文本挖掘时觉得比较好的网站,记录一下,后期也会不定期添加: 1.http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7% ...
Eclipse搭建Python开发环境+Python中文处理
1.基本需求 1.Eclipse 集成开发环境下载 http://115.com/file/c2vz7io5 JDK6下载 http://115.com/file/c2vz7idq 2. ...
python中文处理之encode/decode函数
python中文处理相信迷惑过不少同学.下面说说python2/3的encode和decode函数. python2中,使用decode()和encode()来进行解码和编码,以unicode类型作为 ...
Python中文字符的理解：str()、repr()、print
Python中文字符的理解:str().repr().print 字数1384 阅读4 评论0 喜欢0 都说Python人不把文字编码这块从头到尾.从古至今全研究通透的话是完全玩不转的.我终于深刻的理 ...
python中文注释及输出出错
今天开始接触python,中文报错,你懂的,不细说. 网上很多类似的解决方案,有不是很明确,例如:http://blog.csdn.net/chen861201/article/details/770 ...
Python中文繁简体转换工具
Openccpy ___ _____ __ ___ ___ ___ _____ __ __ / __`\/\ '__`\ /'__`\/' _ `\ /'___\ /'___\/\ '__`\/\ \ ...
Python中文语料批量预处理手记
手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中 ...
共有11款Python 中文分词库开源软件
件过滤: 排序: 收录时间 | 浏览数 Python 中文分词库 Yaha "哑哈"中文分词,更快或更准确,由你来定义.通过简单定制,让分词模块更适用于你的需求. "Ya ...
【已解决】python中文字符乱码（GB2312，GBK，GB18030相关的问题）
http://againinput4.blog.163.com/blog/static/1727994912011111011432810/ [已解决]python中文字符乱码(GB2312,GB ...
Python中文分词组件 jieba
jieba "结巴"中文分词:做最好的Python中文分词组件 "Jieba" Feature 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分 ...

随机推荐

Python 基础之函数、深浅copy,set及练习
三元运算符通常在Python里被称为条件表达式,这些表达式基于真(true)/假(not)的条件判断,在Python 2.4以上才有了三元操作. 语法格式: X if C else Y 有了三元表达式 ...
SSM框架整合项目：投票系统
框架: Spring SpringMVC MyBatis 题目: 投票系统导包: 1, spring 2, MyBatis 3, mybatis-spring 4, fastjson 5, aspe ...
Unity 使用陀螺仪实现《王者荣耀》登入界面背景动态效果
在 <王者荣耀> 登入界面左右上下晃动手机(有些手机不支持)可以看到背景在变化我使用的是iPhone SE 效果如下: 对比两张图片的左下角可以看到差异至于为什么要这么做: 1.使 ...
C#仪器数据文件解析-Word文件（doc、docx）
不少仪器数据报告输出为Word格式文件,同Excel文件,Word文件doc和docx的存储格式是不同的,相应的解析Word文件的方式也类似,主要有以下方式: 1.通过MS Word应用程序的DCOM ...
C#编译器和CLI的安装
为了完成C#程序编译和运行,需要安装代码对应版本的编译器和CLI(公共语言框架)平台. (部分内容摘自<C#本质论>) 针对主流的CLI平台(Microsoft .NET),有两种安装方案 ...
ES6-字符串的扩展-模板字符串
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
谈一谈原生JS中的【面向对象思想】
[重点提前说:面向对象的思想很重要!] 最近开始接触学习后台的PHP语言,在接触到PHP中的面向对象相关思想之后,突然想到之前曾接触的JS中的面向对象思想,无奈记性太差, ...
快速部署Telegraf & Influxdb
是什么? Telegraf 是一个用 Go 编写的代理程序,可收集系统和服务的统计数据,并写入到 InfluxDB 数据库.Telegraf 具有内存占用小的特点,通过插件系统开发人员可轻松添加支持其 ...
C++计时器：毫秒级和微秒级
1.毫秒级使用GetTickCount()获取系统启动所经过的毫秒数 #include<iostream> using namespace std; int main(){ DWORD ...
linux学习（十）find命令、Linux文件后缀名、Linux和windows文件互传
一.和find相关的几个搜索命令,了解即可. 1.1 which [root@iZ25lzba47vZ ~]# which ls alias ls='ls --color=auto' /usr/bin ...

Python中文

Python中文的更多相关文章

随机推荐

热门专题