Python 字符编码及其文件操作

本章节内容导航:

1.字符编码:人识别的语言与机器机器识别的语言转化的媒介。

2.字符与字节:字符占多少个字节，字符串转化

3.文件操作：操作硬盘中的一块区域:读写操作

注:浅拷贝与深拷贝

用法：

 dic={'name':'zhaokang','age':18,'aa':[12,13,14]}

 l.copy()

浅拷贝:会重新开辟内存地址去存储值的内存地址，但值得内存地址指向的还是需要拷贝的值的内存地址。

深拷贝:会重新开辟内存地址去存储值得内存地址，但是值的内存地址指向的是新的一个内存地址，如果需要拷贝的值得值改变，则不会。

用法:

from copy import deepcopy

deepcopy(dic)

重点：什么是字符编码
人类能识别的是字符等高级标识符，电脑只能识别0,1组成的标识符，要完成人与机器之间的信息交流，
一定需要一个媒介，进行两种标识符的转化(两种标识符的对应关系)

对应关系形成的结构称之为：编码表

了解：编码表的发展史

1. ascii（ASCII）：字母、数字、英文符号与计算机01标识符的对应关系

思考：如何将128个字符用01完全标签

二进制：11111111 => 255 => 1bytes(1字节) => 8个二进制位

2.中国：研究汉字与计算机01标识符的对应关系：gb2312 => GBK(***) => GB18030

日本：Shift_JIS

棒子：Euc-kr

3. 制造一个可以完成万国字符与计算机01标识符的对应关系的编码表

编码表：unicode表

py2：ascii，没有按万国编码，原因py2要诞生先有万国编码

py3: utf-8, 采用万国编码来解释文本内容

# 思考：unicode与utf-8什么关系

unicode：用2个字节来存储汉字，用2个字节来存储英文字母，占有空间较多，读取效率极高

utf-8：用3-6个字节来存储汉字，用1个字节来存储英文字母，占有空间较少，读取效率低

总结：内存都是按unicode存储数据，硬盘和cpu采用utf-8来存取数据

#“abc你好”

unicode与utf-8采用的是一张unicode编码表，utf-8是unicode编码表体现方式，变长存储数据

变长优点：（大量数据都是以英文存在，所以utf-8空间更小）传输速度更快

字符编码的发展史

 #阶段一：现代计算机起源于美国，最早诞生也是基于英文考虑的ASCII

 ASCII:一个Bytes代表一个字符（英文字符/键盘上的所有其他字符），1Bytes=8bit，8bit可以表示0-2**8-1种变化，即可以表示256个字符

 ASCII最初只用了后七位，127个数字，已经完全能够代表键盘上所有的字符了（英文字符/键盘的所有其他字符），后来为了将拉丁文也编码进了ASCII表，将最高位也占用了

 #阶段二:为了满足中文和英文，中国人定制了GBK

 GBK:2Bytes代表一个中文字符，1Bytes表示一个英文字符

 为了满足其他国家，各个国家纷纷定制了自己的编码

 日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里

 #阶段三：各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。如何解决这个问题呢？？？

 #！！！！！！！！！！！！非常重要！！！！！！！！！！！！

 说白了乱码问题的本质就是不统一，如果我们能统一全世界，规定全世界只能使用一种文字符号，然后统一使用一种编码，那么乱码问题将不复存在，

 ps：就像当年秦始皇统一中国一样，书同文车同轨，所有的麻烦事全部解决

 很明显，上述的假设是不可能成立的。很多地方或老的系统、应用软件仍会采用各种各样的编码，这是历史遗留问题。于是我们必须找出一种解决方案或者说编码方案，需要同时满足：

 #1、能够兼容万国字符

 #2、与全世界所有的字符编码都有映射关系，这样就可以转换成任意国家的字符编码

 这就是unicode（定长），　统一用2Bytes代表一个字符，　虽然2**16-1=65535，但unicode却可以存放100w+个字符，因为unicode存放了与其他编码的映射关系，准确地说unicode并不是一种严格意义上的字符编码表，下载pdf来查看unicode的详情：

 链接：https://pan.baidu.com/s/1dEV3RYp

 很明显对于通篇都是英文的文本来说，unicode的式无疑是多了一倍的存储空间（二进制最终都是以电或者磁的方式存储到存储介质中的）

 于是产生了UTF-8（可变长，全称Unicode Transformation Format），对英文字符只用1Bytes表示，对中文字符用3Bytes，对其他生僻字用更多的Bytes去存

 #总结：内存中统一采用unicode，浪费空间来换取可以转换成任意编码（不乱码），硬盘可以采用各种编码，如utf-8，保证存放于硬盘或者基于网络传输的数据量很小，提高传输效率与稳定性。

 ！！！重点！！！

总结字符编码的发展可分为三个阶段(重要)

基于目前的现状，内存中的编码固定就是unicode，我们唯一可变的就是硬盘的上对应的字符编码。
此时你可能会觉得，那如果我们以后开发软时统一都用unicode编码，那么不就都统一了吗，关于统一这一点你的思路是没错的，但我们不可会使用unicode编码来编写程序的文件，因为在通篇都是英文的情况下，耗费的空间几乎会多出一倍，这样在软件读入内存或写入磁盘时，都会徒增IO次数，从而降低程序的执行效率。因而我们以后在编写程序的文件时应该统一使用一个更为精准的字符编码utf-8（用1Bytes存英文，3Bytes存中文），再次强调，内存中的编码固定使用unicode。
1、在存入磁盘时，需要将unicode转成一种更为精准的格式，utf-8:全称Unicode Transformation Format，将数据量控制到最精简

2、在读入内存时，需要将utf-8转成unicode
所以我们需要明确：内存中用unicode是为了兼容万国软件，即便是硬盘中有各国编码编写的软件，unicode也有相对应的映射关系，但在现在的开发中，程序员普遍使用utf-8编码了，估计在将来的某一天等所有老的软件都淘汰掉了情况下，就可以变成：内存utf-8<->硬盘utf-8的形式了。

一、字符编码应用之文件编辑器

首先明确概念

#1、文件从内存刷到硬盘的操作简称存文件

#2、文件从硬盘读到内存的操作简称读文件

乱码的两种情况：

#乱码一：存文件时就已经乱码

存文件时，由于文件内有各个国家的文字，我们单以shiftjis去存，

本质上其他国家的文字由于在shiftjis中没有找到对应关系而导致存储失败

但当我们硬要存的时候，编辑并不会报错（难道你的编码错误，编辑器这个软件就跟着崩溃了吗？？？），但毫无疑问，不能存而硬存，肯定是乱存了，即存文件阶段就已经发生乱码

而当我们用shiftjis打开文件时，日文可以正常显示，而中文则乱码了

#用open模拟编辑器的过程

可以用open函数的write可以测试，f=open('a.txt','w',encodig='shift_jis'

f.write('你瞅啥\n何を見て\n') #'你瞅啥'因为在shiftjis中没有找到对应关系而无法保存成功，只存'何を見て\n'可以成功

#以任何编码打开文件a.txt都会出现其余两个无法正常显示的问题

f=open('a.txt','wb')

f.write('何を見て\n'.encode('shift_jis'))

f.write('你愁啥\n'.encode('gbk'))

f.write('你愁啥\n'.encode('utf-8'))

f.close()

#乱码二：存文件时不乱码而读文件时乱码

存文件时用utf-8编码，保证兼容万国，不会乱码，而读文件时选择了错误的解码方式，比如gbk，则在读阶段发生乱码，读阶段发生乱码是可以解决的，选对正确的解码方式就ok了，

！！！乱码分析！！！

1.1 文本编辑器之pycharm

以utf-8格式打开（选择reload）

复制代码

#reload与convert的区别：

pycharm非常强大，提供了自动帮我们convert转换的功能，即将字符按照正确的格式转换

要自己探究字符编码的本质，还是不要用这个

我们选择reload，即按照某种编码重新加载文件

1.2总结

！！！总结非常重要的两点！！！

 #1、保证不乱吗的核心法则就是，字符按照什么标准而编码的，就要按照什么标准解码，此处的标准指的就是字符编码

 #2、在内存中写的所有字符，一视同仁，都是unicode编码，比如我们打开编辑器，输入一个“你”，我们并不能说“你”就是一个汉字，此时它仅仅只是一个符号，该符号可能很多国家都在使用，根据我们使用的输入法不同这个字的样式可能也不太一样。只有在我们往硬盘保存或者基于网络传输时，才能确定”你“到底是一个汉字，还是一个日本字，这就是unicode转换成其他编码格式的过程了

2.字符编码应用之python

python test.py （我再强调一遍，执行test.py的第一步，一定是先将文件内容读入到内存中）

test.py文件内容以gbk格式保存的，内容为：

阶段一：启动python解释器

阶段二：python解释器此时就是一个文本编辑器，负责打开文件test.py,即从硬盘中读取test.py的内容到内存中

此时，python解释器会读取test.py的第一行内容，#coding:utf-8，来决定以什么编码格式来读入内存，这一行就是来设定python解释器这个软件的编码使用的编码格式这个编码，

可以用sys.getdefaultencoding()查看，如果不在python文件指定头信息＃-*-coding:utf-8-*-,那就使用默认的

python2中默认使用ascii，python3中默认使用utf-8

改正：在test.py指定文件头，字符编码一定要为gbk，

#coding:gbk

你好啊

阶段三：读取已经加载到内存的代码（unicode编码格式），然后执行，执行过程中可能会开辟新的内存空间，比如x="zhaokang"

内存的编码使用unicode，不代表内存中全都是unicode，

在程序执行之前，内存中确实都是unicode,比如从文件中读取了一行x="egon",其中的x，等号，引号，地位都一样，都是普通字符而已，都是以unicode的格式存放于内存中的

但是程序在执行过程中，会申请内存（与程序代码所存在的内存是俩个空间）用来存放python的数据类型的值，而python的字符串类型又涉及到了字符的概念

比如x="egon",会被python解释器识别为字符串，会申请内存空间来存放字符串类型的值，至于该字符串类型的值被识别成何种编码存放，这就与python解释器的有关了，而python2与python3的字符串类型又有所不同。

二、文件操作:

　1.文件操作

 文件：硬盘中一块存储空间(虚拟的文件)
 文件操作：根据文件名来操作硬盘的那块存储空间，操作方式 读read 写write

 一、使用文件的三步骤
 二、基本的读写
 三、常用的方法(变量)
 四、文件操作的案例

# 一、使用文件的三步骤
# 1、打开文件
# 变量名 = 文件空间
# 文件路径 操作模式(读|写) 编码
# 2、操作文件

 # data = f.read(3)  # 将所有内容读取出来，如果设置读取长度，按照规定长度读取数据

 # print(data)

 # 一次读取一行

 # line = f.readline()

 # print(line)

 # line = f.readline()

 # print(line)

 # 按行一次性全部读出

 # lines = f.readlines()

 # print(lines)

 # 逐步一行一行读取

 # l = []

 # for line in f:

 #     # print(line)

 #     l.append(line)

 # print(l)

 s = set()

 for line in f:

     # print(line)

     s.add(line)

 print(s)

 # 3、关闭文件

 f.close()  # 释放操作系统对文件的持有，变量f还被应用程序持有

 # del f  # 系统自动回收

 print(f)

3.关闭文件

 # 3、关闭文件

 f.close()  # 释放操作系统对文件的持有，变量f还被应用程序持有

 # del f  # 系统自动回收

 print(f)

 # 二、模式：w

 '''

 主模式：r:读 | w:写 | a:追加

 从模式：b:按字节操作 | t:按字符操作 | +:可读可写

 了解：x:异常写 | U:被遗弃了

 '''

 # 基础写

 # 文件不存在：会新建文件，再操作文件

 # 文件存在：先清空文件，再操作文件

 w = open('b.txt', 'w', encoding='utf-8')

 w.write('')

 w.close()

 print('end')