Python基础之字符编码

前言

　　字符编码非常容易出问题，我们要牢记几句话：

　　1.用什么编码保存的，就要用什么编码打开

　　2.程序的执行，是先将文件读入内存中

　　3.unicode是父编码，只能encode解码成其他编码格式

　　　utf-8，GBK这些是子8编码，只能decode编码成Unicode

一、什么是字符编码

　　我们知道，计算机只能识别二进制，我们平时写的代码都需要转成二进制才能被计算机识别。所以，我们写的字符怎么转换成二进制呢，这个过程实际就是通过一个标准使我们写的字符与特定数字一一对应，这个标准就称为字符编码。

　　字符------（字符编码）------->数字

二、字符编码发展历程

　　1.ASCII码

　　计算机起源于美国，字符编码也起源于美国。但是美国人民使用的文字只有26个字母，再加上些特殊符号就搞定了。不像我们中国，小学生就要认识几千个汉字。所以美国人民就使用了ASCII码（美国信息交换标准码）作为字符编码，一个Bytes代表一个字符，1Bytes=8bit,可以有2的8次方即256中不同的变化，但最初只用了前7位，即127个字符，已经足够美国人民使用了（当然也出于成本的考虑）。后来将拉丁文编入第8位，至此，ASCII码就被占满了，英语国家和拉丁国家可以愉快的玩耍了。

　　2.GBK

　　别看咱们中国暂时科技比不上美帝国，但是咱们有一颗积极向上的心啊，于是，在1980年，国家标准总局发布了中文使用的字符编码-->GBK，使用两个字节表示一个汉字，这样就有2的16次方即65536种组合，已经足够汉字使用了。

　　同时，其他国家也分别发布了自己国家的字符编码标准，如日本的shift_JIS,韩国的Euc-kr等等

　　3.Unicode

　　据说，字符编码鼎盛时期有数百种，且彼此间互相不支持，看来各国人民都很有骨气，但是这太不利于世界的互通了，于是Unicode应运而生。1994年，国际标准化组织发布了号称万国码的Unicode，用两个字节表示一个字符，有65536种组合，已经能把全世界绝大多数语言包括了。

　　4.utf-8

　　Unicode虽然好，但有一个问题，本来用一个字节就能表示的英文，现在要用两个字节，存储空间平白多出一倍，这显然是不完美的，所以又产生了utf-8，对英文字符只用1个字节，对中文字符用3个字节来表示。　

　　5.　　Unicode所有字符都是两个字节，简单粗暴，字符转换成数字的速度快，但是占用存储空间大　　

　　　　　utf-8对不同的字符采用不用的长度表示，节省空间，但是转换效率不如Unicode快

　　　　　内存中使用的字符编码是Unicode，内存就是为了加快速度的，所以宁肯牺牲一点空间，也要保证速度

　　　　　硬盘和网络传输是用utf-8的，因为磁盘I/O或者网络I/O延迟要远大于utf-8的转换效率，并且在网络传输中应该尽可能节省带宽

三、Python解释器执行

　　第一阶段：python解释器启动，此时就相当于启动了一个文本编辑器

　　第二阶段：python解释器作为文本编辑器，去打开t.py文件，从硬盘上将t.py的文件内容读入到内存中

　　第三阶段：python解释器解释执行刚刚加载到内存中t.py的代码

　　其中第二阶段，t.py文件在保存时有一个字符编码，在Python解释器打开文件时也要指定一样的编码方式（Python2默认的编码方式是ASCII，Python3默认是utf-8）,如果文件保存的编码格式和Python解释器默认的编码方式不一样，就要在文件的开头写上#coding: ,来告诉python解释器不要用自己默认的编码方式来读，而是要用头文件指定的方式来读文件，这样才不会出错。

　　第三阶段：读取已经加载到内存中的代码（默认是Unicode），然后执行，执行过程中如果碰到类似定义变量的操作，就会在内存中开辟一块新的内存空间。此时注意，新开辟的内存空间不一定也是Unicode，用户可以在定义变量的时候指定编码方式，定义时开辟的内存空间，也只是一块空间而已，可以存放任意编码格式的代码。以Python3为例

四、编码解码　　

　　保存文件是把内存中的文件保存到硬盘上

　　读文件是把硬盘中的文件读到内存

　　Unicode是父编码，utf-8,GBK这些是子编码，如果子码想转换成其他编码，必须要先转换成父编码，再由父编码转换成其他子编码

　　解码就是decode，是由子码转成父码Unicode的过程

　　编码就是encode，是由Unicode转换成其他编码的过程

　　之前说过，文件读入内存中，就成了Unicode编码（当然这是默认情况，也可以根据指令更改）,从硬盘读文件的过程就是把硬盘中的utf-8解码成Unicode

　　文件保存时，就是由内存保存到硬盘的过程，硬盘中是utf-8的编码方式，需要由Unicode编码成utf-8

五、Python2和Python3的区别

　　1.Python2的默认编码方式是ASCII，打开utf-8保存的文件时会报错，应该在头文件上加#coding : utf-8

　　　Python2中的str被识别为Bytes，所以Python2中的str是被编码后的结果，其实会默认做一件事，就是在str前面加一个u,先转换成Unicode，在encode成bytes

　　　Python2中有两种字符串类型，str和Unicode，str可以通过在前面加个‘u’来转换成Unicode

　　2.python 3 的默认编码方式是utf-8，可以直接打开用utf-8保存的文件

　　　Python3中的str被识别成Unicode

　　　Python3中也有两种字符串类型（bytes和str），但bytes就是bytes，str是unicode

六、打印到终端

　　首先要知道，Windows的终端的默认编码方式是GBK

　　终端也是应用程序，是运行在内存中的，所以我们用print()打印的过程，是从内存中到内存中。所以对于unicode，怎么打印都不会出错，但是Python2中除了加‘u’的字符串外，其他的字符串是Bytes,此时终端中是GBK编码，而Python2中是指定的utf-8或者默认的ascii码时，在终端中打印就会出错。

这些是我目前的理解，如果我以后意识到错误或者有表述不清的地方，再来修改。唉，字符编码是个坑啊

Python基础之字符编码的更多相关文章

python基础_字符编码
字符编码的历史阶段一:现代计算机起源于美国,最早诞生也是基于英文考虑的ASCII 阶段二:为了满足中文,中国人定制了GBK 阶段三:各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的 ...
python 基础之字符编码和文件处理
一.字符编码 (1)计算机基础知识 (2)python 解释器执行py文件的原理 <1>python 解释器启动 <2>python解释器相当于一个文本编辑器,打开txt.py ...
python基础4 ----字符编码
python基础---字符编码一.了解字符编码 1. 文本编辑器存取文件的原理(nodepad++,pycharm,word) 打开编辑器就打开了启动了一个进程,是在内存中的,所以在编辑器编写的内容 ...
第二篇.2、python基础之字符编码
一了解字符编码的知识储备一计算机基础知识二文本编辑器存取文件的原理(nodepad++,pycharm,word) #1.打开编辑器就打开了启动了一个进程,是在内存中的,所以,用编辑器编写的 ...
第1章 Python基础之字符编码
阅读目录一.什么是字符编码二.字符编码分类三.字符编码转换关系 3.1 程序运行原理 3.2 终极揭秘 3.3 补充总结回到顶部一.什么是字符编码计算机要想工作必须通电,也就是说'电'驱 ...
（Python基础）字符编码与转码
ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧 ...
Python全栈开发之路【第三篇】：Python基础之字符编码和文件操作
本节内容一.三元运算三元运算又称三目运算,是对简单的条件语句的简写,如: 简单条件语句: if 条件成立: val = 1 else: val = 2 改成三元运算: val = 1 if 条件成 ...
第一章：python基础语法| 字符编码| 条件语句...
1.编程语言介绍编程就是写代码,让计算机帮你做事情.计算机底层是电路,只认识二进制0和1.机器语言&汇编语言语言进化历史:机器.汇编.高级.机器语言只接受二进制代码:汇编语言是采用英文缩写的 ...
Python基础2 字符编码和逻辑运算符
编码 AscII码 :标准ASCII码是采用7位二进制码来编码的,最高为0,没有0000 0000,所以就是2**7-1=127个字符 , 当用1个字节(8位二进制码)来表示ASCII码时,就在最高位 ...

随机推荐

SDWebImage源码阅读-第一篇
一题外话之前写过一篇最新版SDWebImage的使用,也简单的介绍了一下原理.这两天正梳理自己的知识网络,觉得有必要再阅读一下源码,一是看具体实现,二是学习一下优秀开源代码的代码风格,比如接口设计 ...
关于安卓百度地图SDK报错：Multiple dex files define Lcom/baidu/android/bbalbs/common/a/a;
1.找到.jar包 2.右键,用WinRAR打开 3.打开com/baidu/ 4.保留location,其他全删掉 5.这样将不会报错,可以运行了!!!
【原】vue单文件组件互相通讯
在vue中,我们可以把一个页面各个部分单独封装起来,做成各种小组件,然后加载,这样的好处是代码维护起来比较容易,重复的代码多处调用! 在一个vue项目中,单文件组件以.vue形式文件命名每个组件之间 ...
RELabel ：一个极简的正则表达式匹配和展示框架
html,body,div,span,applet,object,iframe,h1,h2,h3,h4,h5,h6,p,blockquote,pre,a,abbr,acronym,address,bi ...
VSTO在幻灯片里面添加按钮对象
//添加Form窗体,窗体中添加Image控件,单击弹出"PPT"信息提示 //命名引用:using MF = Microsoft.Vbe.Interop.Forms; priva ...
如何使用 ui-router-extras
为了使用ui-router创建tabs构架,使用ui-router-extras 使用方法: 0. 安装包 bower install ui-router-extras --save-dev 1. 引 ...
jQuery.validate 的form校验
jQuery验证框架 : 基本html代码: <script src="js/jquery-1.9.1.js"></script> <script s ...
C. Karen and Game
C. Karen and Game time limit per test 2 seconds memory limit per test 512 megabytes input standard i ...
go语言获取变量的数据类型
package main import "fmt" import "reflect"; var y string = "sdasd" fun ...
PHP安装phpredis扩展
phpredis 的github地址:https://github.com/nicolasff/phpredis第一步:切换到指定的目录,然后wget https://github.com/nicol ...

Python基础之字符编码

Python基础之字符编码的更多相关文章

随机推荐

热门专题