Python 的字符编码
配置: Python 2.7 + Sublime Text 2 + OS X 10.10
本文意在理清各种编码的关系并以此解决 Python 中的编码问题。
1 编码基本概念
只有先了解字符表、编码字符集、字符编码三者的基本概念,才能直入编码问题的核心。
1.1 字符表 | Abstract Character Repertoire
字符表是一个系统支持的所有可读或者可显示的抽象字符的集合。也就是说字符表里面的元素是可显示的字符。例如:“A”、“B”、“文”这样的元素。
1.2 编码字符集 | Coded Character set
编码字符集是这样的一个集合,集合中的元素是字符在字符表中的位置。例如元素 65 代表字符 “A” 在字符表中的位置。
计算机统一使用 Unicode 作为编码字符集。
1.3 字符编码 | Character Encoding Form
由于 Unicode 这个编码字符集十分庞大,每个元素都需要用好几个字节表示,为了节省存储空间以及数据传输成本。人们使用字符编码将 Unicode 表示的字符串转换成字节序列。
将字节序列转换成 Unicode 编码的过程称为解码(decode);将 Unicode 编码转换成字节序列的过程称为编码(encode)。
记住字符编码的目的是为了节省存储空间以及数据传输成本。
常见的字符编码有 ASCII、UTF-8、GBK等,应用最广泛的字符编码是 UTF-8 。
2 Python 的编码字符集
Python 出现的时候 Unicode 的标准还没制定好,所以 Python 2 只支持 ASCII 编码字符集。ASCII 编码字符集和 ASCII 字符编码是同一个集合,也就是说 ASCII 码是没有进行转换直接进行存储的。
所以 Python 中的字符串默认只支持 ASCII 中的字符,为了支持 Unicode 字符,需要在包含 非 ASCII 码字符的字符串前面添加 u
,像这样:
u"中文"
3 Python 的字符编码
Python 默认支持的字符编码也是 ASCII,一般都不够用,我们通常希望将其编码为 UTF-8(UTF-8 without BOM),为了实现这一目标,需要在文件头部进行字符编码声明,并将文件保存为 UTF-8 格式。
字符编码声明必须放在文件的前两行,声明方式如下:
# -*- coding:utf-8 -*-
或者,
#coding=utf-8
Python 对这类声明的格式要求比较严格,所在位置错误或者中间多添加空格都会导致声明失效。
如果未添加声明,会出现类似这样的错误
SyntaxError: Non-ASCII character '\xe4' in file .../sample.py on line 4, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details
如果添加了 UTF-8 的声明,但是文件保存为 GBK 格式,会出现错误
[Decode error - output not utf-8]
。
3.1 Sublime Text 2 编译错误
在 ST2 中,即使进行了正确的设置,依然会出现错误 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)
。这是由于 ST2 在输出字符串时无法识别 Python 对标准输入输出的编码,而默认使用了 ASCII 编码,解决方案是这样的,通过 Sublime Text 2 -> Preference -> Browse Packages
找到 Python 文件夹,打开 Python.sublime-build
文件,添加一个 env 域:
"env": {"PYTHONIOENCODING": "utf8"},
另一个解决方案是在 .py
文件中对字符串进行显式的编码,例如:
print u"中文".encode("utf-8")
关于该问题的详细描述参见 有关 Python 2 和 Sublime Text 中文 Unicode 编码问题的分析与理解 。
4 附录
最后添加一个例子以方便理解。
文件 Python.sublime-build
:
{
"cmd": ["python2.7", "-u", "$file"],
"path":"/System/Library/Frameworks/Python.framework/Versions/2.7/bin/",
"file_regex": "^[ ]*File \"(...*?)\", line ([0-9]*)",
"env": {"PYTHONIOENCODING": "utf8"},
"selector": "source.python"
}
文件 sample.py
:
#! /usr/bin/env python
#coding=utf-8
print u"你好,"
print u"我是唐衣可俊!".encode('utf-8')
输出:
你好,
我是唐衣可俊!
参考链接
十分钟搞清字符集和字符编码(对字符集和字符编码进行了比较系统详尽的介绍)
有关 Python 2 和 Sublime Text 中文 Unicode 编码问题的分析与理解(关于 ST2 对 Unicode 字符输出报错的问题进行了详细的分析)
Python 的字符编码的更多相关文章
- Python基础-字符编码与转码
***了解计算机的底层原理*** Python全栈开发之Python基础-字符编码与转码 需知: 1.在python2默认编码是ASCII, python3里默认是utf-8 2.unicode 分为 ...
- Python的字符编码
Python的字符编码 1. Python字符编码简介 1. 1 ASCII Python解释器在加载.py文件的代码时,会对内容进行编码,一般默认为ASCII码.ASCII(American St ...
- Python常用字符编码(转)
Python常用字符编码 字符编码的常用种类介绍 第一种:ASCII码 ASCII(American Standard Code for Information Interchange,美国信息交 ...
- Python常见字符编码间的转换
主要内容: 1.Unicode 和 UTF-8的爱恨纠葛 2.字符在硬盘上的存储 3.编码的转换 4.验证编码是否转换正确 5.Python bytes类型 前 ...
- python 3字符编码
python 3字符编码 官方链接:http://legacy.python.org/dev/peps/pep-0263/ 在Python2中默认是ascii编码,Python3是utf-8编码 在p ...
- 转:Python常见字符编码及其之间的转换
参考:Python常见字符编码 + Python常见字符编码间的转换 一.Python常见字符编码 字符编码的常用种类介绍 第一种:ASCII码 ASCII(American Standard Cod ...
- Python遇到字符编码出问题的一个相对万能的办法
在使用Python做爬虫的过程中,经常遇到字符编码出问题的情况. UnicodeEncodeError: 'ascii' codec can't encode character u'\u6211' ...
- Python:字符编码详解
相关文章 Python中文编码问题:为何在控制台下输出中文会乱码及其原理 1. 字符编码简介 1.1. ASCII ASCII(American Standard Code for Informati ...
- Python入门笔记(14):Python的字符编码
一.字符编码中ASCII.Unicode和UTF-8的区别 点击阅读:http://www.cnblogs.com/kingstarspe/p/ASCII.html 再推荐一篇相关博文:http:// ...
随机推荐
- linux 通过管道更方便的查询输入记录
history |sort -k4|uniq -f3 -c |sort -n -k2 history:得到输入记录|sort -k4:在第4列进行排序 -k4 第4列 每一列用空格分隔|uniq -f ...
- 这些C++常用内置函数你会几个??
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:Regina520 新手注意:如果你C++学的不好,可以去拿我的C+ ...
- nessus安装、msfconsole辅助模块使用(网安全实训第三天)
本期内容:nessus安装.msfconsole辅助模块使用.后渗透攻击 1. nessus安装 2.msfconsole辅助模块使用 3.后渗透攻击 1. nessus安装 (1)下载nessus ...
- 手把手教你打造一款轻量级canvas渲染引擎
背景 当我们开发一个canvas应用的时候,出于效率的考量,免不了要选择一个渲染引擎(比如PixiJS)或者更强大一点的游戏引擎(比如Cocos Creator.Layabox). 渲染引擎通常会有S ...
- 超简单!asp.net core前后端分离项目使用gitlab-ci持续集成到IIS
现在好多使用gitlab-ci的持续集成的教程,大部分都是发布到linux系统上的,但是目前还是有很大一部分企业使用的都是windows系统使用IIS在部署.NET应用程序.这里写一下如何使用gitl ...
- Java_零碎知识回顾
封装的理解 1.隐藏实现细节,控制对象的访问权限:对外提供公共方法: 隐藏:private 本类可见 继承的理解 ①父类有共性的属性与方法:子类只需要继承,扩展自己独有的属性方法即可,实现了代码的可复 ...
- 进程-(process)、线程-(Thread)
进程和线程之间的区别: 内存之间的区别: 进程之间不可以共享内存空间,每个进程都有各自独立的内存空间: 线程之间则是可以共享一个进程里的内存空间: 通信机制方面的区别 默认情况下,进程之间很难互通的, ...
- 【hibernate】重写物理表名和列明
[hibernate]重写物理表名和列明 转载:https://www.cnblogs.com/yangchongxing/p/10357123.html 假设你的数据库命名有这样的需求,表都以 yc ...
- 重构 JAVA 聊天室 —— CS 模式的简单架构实现
前言 自从开始弄起数据挖掘之后,已经很久没写过技术类的博客了,最近学校 JAVA 课设要求实现一个聊天室,想想去年自己已经写了一个了,但是有些要求到的功能我也没实现,但看着原有的代码想了想加功能好像有 ...
- Linux配置免密登陆
可能很多新手在配置免密登陆的时候第一次会经常没有配成功,会报错. 在这里将为大家演示最简洁且能一次配置成功的教程 首先以3台机器为例: 192.168.3.102 master 192.168.3.1 ...