概述

在使用Python或者其他的编程语言,都会多多少少遇到编码错误,处理起来非常痛苦。在Stack Overflow和其他的编程问答网站上,UnicodeDecodeError和UnicodeEncodeError也经常被提及。本篇教程希望能帮你认识Python编码,并能够从容的处理编码问题。

本教程提到的编码知识并不限定在Python,其他语言也大同小异,但我们依然会以Python为主,来演示和讲解编码知识。

通过该教程,你将学习到如下的知识:

  • 获取有关字符编码和数字系统的概念
  • 理解编码如何使用Python的str和bytes
  • 通过int函数了解Python对数字系统的支持
  • 熟悉Python字符编码和数字系统相关的内置函数

什么是字符编码

现在的编码规则已经有好多了,最简单、最基本是的ASCII编码,只要是你学过计算机相关的课程,你就应该多少了解一点ASCII编码,他是最小也是最适合了解字符编码原理的编码规则。具体如下:

  • 小写英文字符:a-z
  • 大写英文字符:A-Z
  • 符号: 比如 $和!
  • 空白符:回车、换行、空格等
  • 一些不可打印的字符: 比如\b等

那么,字符编码的定义到底是什么了?它是一种将字符(如字母,标点符号,符号,空格和控制字符)转换为整数并最终转换为bit进行存储的方法。 每个字符都可以编码为唯一的bit序列。 如果你对bit的概念不了解,请不要担心,我们后面会介绍。

ASCII码的字符被分为如下几组:

ASCII表一共包括128个字符,如果你想了解整个ASCII表,这里有

Python string模块

string模块是python里处理字符串很方便的模块,它包括了整个ASCII字符,让我们来看看部分string模块源码:

# From lib/python3.7/string.py

whitespace = ' \t\n\r\v\f'
ascii_lowercase = 'abcdefghijklmnopqrstuvwxyz'
ascii_uppercase = 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'
ascii_letters = ascii_lowercase + ascii_uppercase
digits = '0123456789'
hexdigits = digits + 'abcdef' + 'ABCDEF'
octdigits = '01234567'
punctuation = r"""!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~"""
printable = digits + ascii_letters + punctuation + whitespace

你可以在Python中这样使用string模块:

>>> import string

>>> s = "What's wrong with ASCII?!?!?"
>>> s.rstrip(string.punctuation)
'What's wrong with ASCII'

什么是bit

学过计算机相关课程的同学,应该都知道,bit是计算机内部存储单位,只有0和1两个状态(二进制),我们上面所说的ASCII表,都是一个10进制的数字表示一个字符,而这个10进制数字,最终会转换成0和1,存储在计算机内部。例如(第一列是10进制数字,第二列是二进制,第三列是计算机内部存储结果):

这是一种在Python中将ASCII字符串表示为位序列的方便方法。 ASCII字符串中的每个字符都被伪编码为8位,8位序列之间有空格,每个字符代表一个字符:

>>> def make_bitseq(s: str) -> str:
... if not s.isascii():
... raise ValueError("ASCII only allowed")
... return " ".join(f"{ord(i):08b}" for i in s) >>> make_bitseq("bits")
'01100010 01101001 01110100 01110011' >>> make_bitseq("CAPS")
'01000011 01000001 01010000 01010011' >>> make_bitseq("$25.43")
'00100100 00110010 00110101 00101110 00110100 00110011' >>> make_bitseq("~5")
'01111110 00110101'

我们也可以是用python的f-string 来格式化,比如f"{ord(i):08b}":

  • 冒号的左侧是ord(i),它是实际的对象,其值将被格式化并插入到输出中。 使用ord()为单个str字符提供了base-10代码点。

  • 冒号的右侧是格式说明符。 08表示宽度为8,0填充,b用作在基数2(二进制)中输出结果数的符号。

ASCII编码不够用了

ASCII采用的是8bit来存储字符(只使用7位,剩下的1位二进制为0),所以,ASCII最多存储128个字符,这有个简单的公式,计算存储字符的bit数量与存储字符总数的关系:2的n次方,n表示bit数量。例如:

  • 1bit存储2个字符
  • 8bit存储256个字符
  • 64bit存储2的64次方 == 18,446,744,073,709,551,616

我们可以写个简单的代码,来计算一下,指定字符数量,至少需要多少bit来存储:

>>> from math import ceil, log

>>> def n_bits_required(nvalues: int) -> int:
... return ceil(log(nvalues) / log(2)) >>> n_bits_required(256)
8

数字系统

在上面的ASCII讨论中,您看到每个字符映射到0到127范围内的整数。但在CPython中还有其他的数字系统,通过其他方式是表示数字。除了十进制外,python还支持以下几个方式:

  • Binary: 2进制
  • Octal: 8进制
  • Hexadecimal (hex): 16进制

你可能要问,为什么有了十进制,还要支持这么多其他进制的数字了?这个取决你的业务场景和操作系统,在Python里,把str转换成int,默认是10进制的。

>>> int('11')
11
>>> int('11', base=10) # 10 is already default
11
>>> int('11', base=2) # Binary
3
>>> int('11', base=8) # Octal
9
>>> int('11', base=16) # Hex
17

你可以在赋值时,直接告诉解释器数字的类型,不同进制标表示方法如下:

类型 前缀 示例
n/a n/a 11
二进制 0b 或者 0B 0b11
八进制 0o 或者 0O 0o11
十六进制 0x 或者 0X 0x11
>>> 11
11
>>> 0b11 # 二进制
3
>>> 0o11 # 八进制
9
>>> 0x11 # 16进制
17

深入Unicode

正如您所看到的,ASCII的问题在于它不是一个足够大的字符集来容纳世界上的语言,方言,符号和字形。 (这对于英语来说甚至都不够大。)Unicode从根本上起到与ASCII相同的作用,但是Unicode拥有更大的存储空间,具有1,114,112个可能的字符,能够完全包含世界上所有的语言。事实上,ASCII是Unicode的完美子集。 Unicode表中的前128个字符与您合理期望的ASCII字符完全对应。叉车维修

Unicode本身不是编码,但是有很多遵循Unicode编码规范编码,后面讲到的UTF-8就是其中一个。

Unicode vs UTF-8

Unicode是一种抽象编码标准,而不是编码。这就是UTF-8和其他编码方案发挥作用的地方。 Unicode标准(字符到代码点的映射)从其单个字符集定义了几种不同的编码。UTF-8及其较少使用的表兄弟UTF-16和UTF-32是用于将Unicode字符表示为每个字符一个或多个字节的二进制数据的编码格式。我们稍后将讨论UTF-16和UTF-32,但到目前为止,UTF-8占据了最大份额。

Python 3里的编码与解码

Python 3的str类型用于表示人类可读的文本,可以包含任何Unicode字符。

相反,字节类型表示二进制数据或原始字节序列,它们本质上没有附加编码。

编码和解码是从一个到另一个的过程:

decode 和 encode 函数,默认编码是utf-8:

>>> "résumé".encode("utf-8")
b'r\xc3\xa9sum\xc3\xa9'
>>> "El Niño".encode("utf-8")
b'El Ni\xc3\xb1o' >>> b"r\xc3\xa9sum\xc3\xa9".decode("utf-8")
'résumé'
>>> b"El Ni\xc3\xb1o".decode("utf-8")
'El Niño'

str.encode()的结果是一个bytes对象,bytes对象只允许ASCII字符。这就是为什么在调用“ElNiño”.encode(“utf-8”)时,允许ASCII兼容的“El”按原样表示,但带有波浪号的n被转义为“\ xc3 \ xb1”。 这个看起来很乱的序列代表两个字节,十六进制为0xc3和0xb1:

>>> " ".join(f"{i:08b}" for i in (0xc3, 0xb1))
'11000011 10110001'

Python3一切字符皆Unicode

  • 默认情况下,Python 3源代码假定为UTF-8。 这意味着您不需要# - * - 编码:UTF-8 - * - 位于Python 3中.py文件的顶部。

  • 默认情况下,所有文本(str)都是Unicode。 编码的Unicode文本表示为二进制数据(字节)。 str类型可以包含任何文字Unicode字符,例如“Δv/Δt”,所有这些字符都将存储为Unicode。

  • Unicode字符集中的任何内容都是标识符中的犹太符号,这意味着résumé=“〜/ Documents / resume.pdf”是有效的,虽然这看起来很花哨。

  • Python的re模块默认为re.UNICODE标志而不是re.ASCII。 这意味着,例如,r“\ w”匹配Unicode字符,而不仅仅是ASCII字母。

  • str.encode()和bytes.decode()中的默认编码是UTF-8。电动叉车

还有一个更细微的属性,即内置的open()的默认编码是依赖于平台的,并且取决于locale.getpreferredencoding()的值:

>>> # Mac OS X High Sierra
>>> import locale
>>> locale.getpreferredencoding()
'UTF-8' >>> # Windows Server 2012; other Windows builds may use UTF-16
>>> import locale
>>> locale.getpreferredencoding()
'cp1252'

一个关键特性是UTF-8是一种可变长度编码。回想一下关于ASCII的部分。 扩展ASCII-land中的所有内容最多需要一个字节的空间。 您可以使用以下生成器表达式快速证明这一点:

>>> all(len(chr(i).encode("ascii")) == 1 for i in range(128))
True

UTF-8完全不同。 给定的Unicode字符可以占用1到4个字节。 以下是占用四个字节的单个Unicode字符的示例:

>>> ibrow = "												

关于Python编码这一篇文章就够了的更多相关文章

  1. Android:学习AIDL,这一篇文章就够了(下)

    前言 上一篇博文介绍了关于AIDL是什么,为什么我们需要AIDL,AIDL的语法以及如何使用AIDL等方面的知识,这一篇博文将顺着上一篇的思路往下走,接着介绍关于AIDL的一些更加深入的知识.强烈建议 ...

  2. (转) TensorFlow深度学习,一篇文章就够了

    TensorFlow深度学习,一篇文章就够了 2016/09/22 · IT技术 · TensorFlow, 深度学习 分享到:6   原文出处: 我爱计算机 (@tobe迪豪 )    作者: 陈迪 ...

  3. (转载)Android:学习AIDL,这一篇文章就够了(下)

    前言 上一篇博文介绍了关于AIDL是什么,为什么我们需要AIDL,AIDL的语法以及如何使用AIDL等方面的知识,这一篇博文将顺着上一篇的思路往下走,接着介绍关于AIDL的一些更加深入的知识.强烈建议 ...

  4. (转载)Android:学习AIDL,这一篇文章就够了(上)

    前言 在决定用这个标题之前甚是忐忑,主要是担心自己对AIDL的理解不够深入,到时候大家看了之后说——你这是什么玩意儿,就这么点东西就敢说够了?简直是坐井观天不知所谓——那样就很尴尬了.不过又转念一想, ...

  5. 面试题-关于Java线程池一篇文章就够了

    在Java面试中,线程池相关知识,虽不能说是必问提,但出现的频次也是非常高的.同时又鉴于公众号"程序新视界"的读者后台留言让写一篇关于Java线程池的文章,于是就有本篇内容,本篇将 ...

  6. Android:学习AIDL,这一篇文章就够了(上)

    前言 在决定用这个标题之前甚是忐忑,主要是担心自己对AIDL的理解不够深入,到时候大家看了之后说——你这是什么玩意儿,就这么点东西就敢说够了?简直是坐井观天不知所谓——那样就很尴尬了.不过又转念一想, ...

  7. TensorFlow深度学习,一篇文章就够了

    http://blog.jobbole.com/105602/ 作者: 陈迪豪,就职小米科技,深度学习工程师,TensorFlow代码提交者. TensorFlow深度学习框架 Google不仅是大数 ...

  8. 真的,Kafka 入门一篇文章就够了

    初识 Kafka 什么是 Kafka Kafka 是由 Linkedin 公司开发的,它是一个分布式的,支持多分区.多副本,基于 Zookeeper 的分布式消息流平台,它同时也是一款开源的基于发布订 ...

  9. go包管理速通,一篇文章就够了,再也不用担心因为不会导包被辞退

    前言 最近在看一些go语言相关的书,发现了一个有意思的事情:其中一本书最新印刷的版本是2017年3月,而golang包管理的后起之秀go module伴随go1.11于2018年8月诞生--因此,书里 ...

随机推荐

  1. C++概念分析之 重载、重写(覆盖)和隐藏的区别

    一.基本概念区别: 重载:是指同一可访问区内被声明的几个具有不同参数列(参数的类型,个数,顺序不同)的同名函数,根据参数列表确定调用哪个函数,重载不关心函数返回类型. 隐藏:是指派生类的函数屏蔽了与其 ...

  2. vs2017 编译linux项目

    官方文档1: https://blogs.msdn.microsoft.com/vcblog/2017/04/11/linux-development-with-c-in-visual-studio/ ...

  3. Spark(四十九):Spark On YARN启动流程源码分析(一)

    引导: 该篇章主要讲解执行spark-submit.sh提交到将任务提交给Yarn阶段代码分析. spark-submit的入口函数 一般提交一个spark作业的方式采用spark-submit来提交 ...

  4. Bayesian Statistics for Genetics | 贝叶斯与遗传学

    Common sense reduced to computation - Pierre-Simon, marquis de Laplace (1749–1827) Inventor of Bayes ...

  5. JVM 字节码的结构

    编译的.class文件,可以用javap进行反编译 javap Test.class javap -c Test.class javap -verbose Test.class 1.创建MyTest1 ...

  6. 通过遍历而非排序求最值 python list in 时间复杂度 列表元素存在性

    Write a function: def solution(A) that, given an array A of N integers, returns the smallest positiv ...

  7. JS数组常见方法的深浅拷贝分类

    一.涉及浅拷贝类方法,会改变原数组 1,pop():   删除 arrayObject 的最后一个元素,把数组长度减 1,并且返回它删除的元素的值.如果数组已经为空,则 pop() 不 改变数组,并返 ...

  8. 004 JpaRepository,CrudRepository,PagingAndSortingRepository的区别

    很多程序都在使用,CrudRepository或者PagingAndSortingRepository,但是以前自己的程序使用的是JpaRepository,然后查了一下材料,记录一下. 1.类图 2 ...

  9. IDEA Git 修改后的文件无法Commit

    转自:https://blog.csdn.net/moneyshi/article/details/81298861 因对IDEA使用不熟,在使用和配置GIT的时候,可能哪里配置错误,导致我一直无法使 ...

  10. 123457123457#0#----com.DoraGame.ShiZi75--前拼后广--识字dora

    com.DoraGame.ShiZi75--前拼后广--识字dora