标准动作

  • 在脚本第一行指定编码格式:
# coding:utf-8
  • 将默认的ascii字符流处理方式变为utf-8:
import sys
sys.getdefaultencoding()
'ascii'
reload(sys)
sys.setdefaultencoding('utf-8')

常见字符编码知识

ascii编码

是最早使用、最常见的一种字符编码,包含了128个字符(英文字母、数字、符号、控制字符等),也是下面讲到的所有编码的公共集合。

ISO8859-1编码

西欧字符集编码。

gb2312/gbk/gb18030之间的关系

这是简体中文的三种编码,从左到右包含的字符范围依次增大,左边是右边的子集。

big5编码

繁体中文编码。

unicode/utf-8/utf-16/utf-32之间的关系

  • unicode是一个字符集,表示包含了哪些字符——包含了世界上所有字符。

  • 而utf-8/utf-16/utf-32是字符编码,表示用哪种方式表示unicode字符集,是对unicode字符集的具体编码实现方式。

  • 最常用的是utf-8

获取字符串的编码格式

from chardet import detect
detect('abc')
{'confidence': 1.0, 'encoding': 'ascii', 'language': ''}
detect(r'abc')
{'confidence': 1.0, 'encoding': 'ascii', 'language': ''}

注:detect的参数不能是unicode字符串,否则会报错。

str和unicode对象

str和unicode都是python内置的两种字符串类,并且有着同样的父类:basestring

type('123')
str
type(u'123')
unicode
str.__bases__
(basestring,)
unicode.__bases__
(basestring,)
basestring.__bases__
(object,)

用好unicode这个桥梁

有时候并不知道一个字符串的编码是什么(比如从某个文件中读取的内容),这时候如何把这个文件的字符编码转为需要的编码呢(比如utf-8)?

答案是:借助unicode为桥梁。

比如:

with open('content.txt','r') as fin:
content = fin.read()
# 这里先把文件内容decode成utf-8编码(中间桥梁),再encode成gbk编码(目标编码)
target = content.decode('utf-8').encode('gbk')

把转义的中文unicode字符串转为中文

s = '\u6211'
type(s)
str
print s
\u6211
print s.decode('unicode-escape').encode('utf-8')

把各种字符都统一成unicode来处理

from __future__ import unicode_literals
type('123')
unicode
type(u'123')
unicode

解决matplotlib图表中的中文乱码问题

按照matplotlib默认的字符编码,在图表中中文不能正常显示,会显示为方框,如下:

import matplotlib.pyplot as plt
x = [1,2,3]
y = [4,6,8]
plt.plot(x,y)
plt.title(u'数据')
plt.show()

解决方法:

plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False # 解决负号显示为方框的问题
plt.title(u'数据')
plt.plot(x,y)
plt.show()

随机推荐

  1. 修改net基本三层 动软生产

    控制层(dal) 模型层-实体类(Model) 显示层-web

  2. deep learning+ Depth Estimation

    Depth estimation/stereo matching/optical flow @CVPR 2017 Unsupervised Learning of Depth and Ego-Moti ...

  3. 刚新建好的动态网站项目,创建jsp页面就报错

    拿到刚刚可以运行的Eclipse,就马上想敲码了,但一创建项目之后再创建jsp页面就报错= =! 报错的内容大概为缺乏对应的jar包. 我们常用Tomcat为中间体,而他本身是带有开发jsp网站的对应 ...

  4. 把登录和退出功能单独写到一个公共.py脚本,其它用例test1,test2调用公共登录,退出函数

    公共登录/退出函数模块(login_exit.py): #coding:utf-8import timedef login(driver, username, password):#此处的driver ...

  5. c++新特性---引用变量

    一.定义 引用变量是已定义变量的别名,如将ra设置为a的引用变量,则可以使用ra和a交替使用该变量. 表示: int a = 5; int & ra = a; 其中&不是地址运算符,而 ...

  6. 笔试面试的路上——努力ing

    积累: 最值得阅读学习的 10 个 C 语言开源项目代码 改变计算技术的 9 个伟大算法 程序员选修课丨追妹子的各种算法 追 MM 和设计模式:趣解 23 种设计模式 设计高可用性.容错和数据隔离的H ...

  7. 【BZOJ4439】[Swerc2015]Landscaping 最小割

    [BZOJ4439][Swerc2015]Landscaping Description FJ有一块N*M的矩形田地,有两种地形高地(用‘#’表示)和低地(用‘.’表示) FJ需要对每一行田地从左到右 ...

  8. 转载:Eslint 规则说明

    原文: http://blog.csdn.net/helpzp2008/article/details/51507428 ,//禁止使用alert confirm prompt ,//禁止使用数组构造 ...

  9. HTML、DOM和JS的了解

    1.HTML.JS.以及DOM的关系的关系说明 关于HTML.JS.以及DOM的关系一直很迷惑,虽然一直听人说,但并未理解. 偶然间,忽然懂了这三者之间的关系. 举例吧: HTML就是最终的页面,是一 ...

  10. IE数组排序问题的处理

    有一哥们在微信开发中,到生成签名这抓狂了一天 最后发现微信调试工具在IE和chrome下对字符的排序竟然不同. 嗯,这个问题引起了我的关注,于是根据微信工具里的对象数组格式,撸了几句代码调试了一下,发 ...