python3编码问题总结

关于python3的编码类型，到底是怎么编码的，一直使我比较疑惑，在看了网上很多帖子之后，经过自己尝试与实验，将自己的总结写在下面，一是当做一次笔记，二是希望网友们能指正。仅供参考，欢迎指正，谢谢！！！

一、编码类型

首先，我们需要明白的是计算机只能识别0、1这种二进制的信息，再说字节，字节是计算机的最小处理单元。一个字节占 8 位，也就是说在计算机中最小可以处理 8 位的二进制数。同时，在计算机上存储的数据也是以字节为单位的信息，在读取计算机上的信息时就是读取的二进制的这些0、1组成的数字信息。

关于各种编码类型，常用的有 Ascii、UTF-8、GBK、GB2312以及Unicode 。我们从Ascii理解他们是怎么来的。

因为计算机只能识别二进制数，那么如何使计算机能够表示字母以及数字等形式呢？于是想到了建立一个标准码来翻译成计算机能识别的二进制数，形成一一对应，那么输入一个字符，那么就能计算机就可以转变为二进制，从而理解。同时，计算机的最小处理单元是 8 位的二进制数，因此这个标准码就占用了 8 位。那么就可以有2的8次方种0、1组合来表示常用的英文字符，然而标准的 ascii 没有用满这 8 位，只用了 7 位。之后又由于制表符、数学符号等里面并没有，这张表在 128 个数的基础上扩展到了 256 个，即 “扩展 ascii”。

在之后，256 个字符根本无法表示全人类的语言，于是进一步扩展到了 2 个字节，也是就是2的16次方，这也是中文为什么占两个字符，而英文字符只需要占一个，也就产生了GBK等编码方式，其实就是中文字与0、1排列组合的映射表使计算机能够理解。

在之后由于世界各种的编码方式不同，不利于统一交流，于是出现了Unicode、utf8等格式。

简单理解就是为了使计算机处理英文字符，产生了ASCII码；为了处理中文字符，产生了GB2312；为了处理各国字符，产生了Unicode；为了提高Unicode存储和传输性能，产生了UTF-8，它是Unicode的一种实现形式。

同时，各种编码方式都对应一张0、1组合的二进制表，以此保存信息，单位为字节。

二、python3的编码

1.python3中文本字符串str和字节字符串是严格区分的

首先理解encode（encoding）与decode的定义：

编码(encode)：将Unicode字符串（中的代码点)转换特定字符编码对应的字节串的过程和规则

解码(decode)：将特定字符编码的字节串转换为对应的Unicode字符串(中的代码点)的过程和规则

其次，在python3中显示的字符串是以unicode进行编码的，要想转变为其他编码格式需要对其进行encode（）编码，下面请看示例：

表一

由上图看出：

（1）a是一个字符串，其编码格式是unicode，类型为str字符串，但是将其进行编码成utf8格式，会出现开头为b的字节字符串，其类型为 bytes 故可以发现两者是不同的。

（2）字符串str本身没有decode这个方法，因为其本身就是unicode的

（3）将a先解码在编码就可以变为原来的字符串，说明，在python3中编码必须经过unicode进行转化

2.关于pthon3中对于文件的读取写入与储存

2.1 首先定义一个“1.txt”，内容为"哈哈123abc“”，我们来看一下，python3是以什么方式读取写入文件的。在这里先说一下如何看txt的编码格式以及如何修改txt文件的编码格式，即打开txt 》点击做上方文件》点击另存为》会出现下方的图》可以根据需要选择编码也可以查看编码类型

注：显示的为当下的编码类型

表二

2.2 其次，我们来看一下读入文件的编码方式：

2.2.1在txt为utf8下：

表三

由上图可知;

（1）所谓乱码本质上是系统（windows默认）编码与所提供字符的编码不一致导致的（windows默认ANSI），ansi在世界由地方不同而不同，在简体中文Windows操作系统中，ANSI 编码代表 GBK 编码；在繁体中文Windows操作系统中，ANSI编码代表Big5；在日文Windows操作系统中，ANSI 编码代表 Shift_JIS 编码，等等。

（2）本人系统是简体中文Windows，在不明确以什么编码方式打开下，会显示出乱码，且乱码在明确以utf8下是一致的，在表明是gbk下是乱码一致。故可知python3是以ANSI读取存在系统的字节信息，然后内部自动解码成unicode。之前说过python是区分字符unicode和字节字符（utf8\gbk等）的，在此并不是显示的字节类型，而是字符串str，故encoding的作用是指示python以什么方式解码所要读取信息，使之成为unicode。

注：已有记事本文件（非空），转码 UTF-8，复制到pycharm中，在开始位置打印结果会出现\ufeff

2.2.2在txt为gbk(ANSI)下：

表三

由上图可知：

（1）在gbk格式下的txt文件，在不指明编码方式下就可以正确读取为字符串，印证了上述看法

（2）在指明为utf8下会报错，但在上面未报错，只是出现乱码，总之不能正确解码

2.3 最后，来看一下python保存文件的编码格式（仍以txt为例）

表四

表五

由上图可知：

（1）默认是以ANSI进行保存，在使用encoding（）指明编码方式下，会使用指示的方式

（2）说明在python3中，会自动将unicode编码输出，encoding的作用很大

2.4 来看一下pythons自己的 .py文件是什么格式

Python程序时会指定工程编码和文件编码为UTF-8，Python代码被保存到磁盘时就会被转换为UTF-8编码对应的字节（encode过程）后写入磁盘。

当执行Python代码文件中的代码时，Python解释器在读取Python代码文件中的字节串之后，需要将其转换为UNICODE字符串（decode过程）之后才执行后续操作。

如图：

表六

由此可知 .py文件是以utf8格式进行保存的，即unicode格式是python在使用时将其他格式解码生成操作，最后输出时，会自动按要求或者默认格式编码。

三. 关于网页爬取编码 r.text 与 r.content

对requests获取的原始数据，有三种获取形式：

一个是r.content（万能，但须解码）一个是r.text 一个是resp.json()

text -- 审查元素中的全部，类型 str （直接表示为unicode）

content -- 以b开头的审查元素中的全部内容，类型 byte(含有编码形式的，故有时需要先解码才能正常显示文本，图片则不需要解码)

json() -- 是针对json格式数据，可以直接生成字典进行数据提取

对于网页数据的爬取，也是需要编码格式的：

（1）

表七

这是慕课上嵩老师所写的一个小的获取网页的代码，其中需要r.encoding 要正确的获得。不过现在网页很多都是utf8写的，即使不使用encoding，一般也能正确获取。

（2）关于 content 获取二进制的形式，如果需要变为text 这种获取的格式，可以使用 r.content.decode('utf-8')

总结：

（1）python以声明的编码方式读取文件字节（默认系统gbk）之后自动解码为unicode,显示为字符串，故字符串无decode用法。但是若将字符串编码为字节字符串（有编码格式的）再变为原字符串则需先decode再encode

（2） windows系统下，无论是python还是其他默认保存与读取为gbk格式，除非在保存时指定编码方式，encoding=utf8

（3）在python中，从网上获取r.text类型为str（unicode）无decode，但是r.content是二进制形式（带编码类型）需先解码才可以==text

（4）爬虫中的尝试编码格式r.encoding = r.apparent_encoding 使得返回的内容解码正确（命令要打正确）才能在python中变为unicode

上面如果有什么逻辑错误或者理解错误的地方，请大家指正，感谢！！！

参考文献：

https://www.cnblogs.com/zhangqigao/p/6496172.html

https://www.cnblogs.com/laolv/p/7397429.html

https://blog.csdn.net/u014297175/article/details/40507523 # 二进制、字节、编码的关系

http://www.runoob.com/python/att-string-encode.html #python encode的方法

https://www.cnblogs.com/geekard/archive/2012/10/04/python-string-endec.html

作者：在水之滨
链接：https://www.jianshu.com/p/74c75c2bebc0
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。