编码

计算机是怎么传输和存储数据的？

就是把人类认识的中英文字、其他国家语言、数字甚至运算符等符号转成二进制的0、1，并进行存储和传输。

编码

人类语言：中英文字、其他国家语言、数字甚至运算符等符号

计算机语言：二进制的0、1【没错，计算机只认识0和1】

编码：将人类语言转换为计算机语言。

除了0、1这些阿拉伯数字，像a、b、c这样的52个字母（包括大小写），还有一些常用的符号（例如*、#、@等）在计算机中存储时也要使用二进制数来表示，而具体用哪些二进制数字表示哪个符号，理论上每个人都可以有自己的一套规则（这就叫编码规则，形成编码表）。

如果使用了不同的编码规则，就会有计算机识别不了的情况，出现乱码。

进制

二进制、八进制、十六进制。

八进制和十六进制分别是二进制的3次方和4次方。方便和二进制之间非常直接的相互转换

二进制

由0和1构成的

二进制	十进制
00	0
01	1
10	2
11	3
100	4
101	5
110	6
111	7
1000	8

二进制的00，代表十进制的0
二进制的01，代表十进制的1
二进制的10，代表十进制的2【笑话：世界上有10种人，懂二进制的和不懂二进制的】
二进制的11，代表十进制的3
二进制的100，代表十进制的4
以此类推...

当有两位数时，我们可以表示0到3，共4种状态，即2的平方
当有三位数时，我们可以表示0到7，共8种状态，即2的三次方
当有八位数时，我们可以表示0到255，共256种状态，即2的8次方

八进制

使用0、1、2、3、4、5、6、7组成的

十六进制

使用0、1、2、3、4、5、6、7、8、9、a、b、c、d、e、f组成的

ASCII编码表中的“K”

二进制	八进制	十进制	十六进制	字母
01001011	113	75	4B	K

注意这里还是大写的字母K哦～

存储单位

计算机里的存储单位

位/比特（bit）

位：又叫比特（bit）是计算机里最小的存储单位。用来存放一位二进制书，即0或1。

字节（byte）

八个比特是一个字节，是计算机里最常用的单位。简写“B”

千字节（Kilobyte）

兆字节（Megabyte）

简称“兆”

吉字节（Gigabyte）

又叫千兆

单位换算

1B(byte 字节) = 8bit
1KB(Kilobyte 千字节) = 1024B
1MB(Megabyte 兆字节) = 1024KB
1GB(Gigabyte) = 1024MB

为什么办的100兆的宽带，撑死就只有10几兆的下载速度？

因为运营商的带宽是以比特每秒为单位的，比如100M就是100Mbit/s。

而我们常看到的下载速度KB却是以字节每秒为单位显示的，1byte = 8bit，所以运营商说的带宽得先除以8，你的百兆宽带下载速度，也就是十几兆了。

编码表

为了避免乱码，人类就约定了一套共同的编码规则。就像计算机世界的新华字典、牛津英语字典。

编码表历史

ASCII

ASCII编码（读音：/ˈæski/），美国首先出台。统一规定了常用符号用哪些二进制数来表示。
因为英文字母、数字再加上其他常用符号，也就100来个，因此使用7个比特位（最多表示128位）就够用了，所以一个字节中被剩下的那个比特位就被默认为0。
但欧洲不光有英语，还有法语字母上的注音符。于是欧洲用了美国剩下的那个比特位，普遍使用一个全字节（8个比特位）进行编码，最多可表示256位，至此，一个字节就用满了！

ASCII统一了前面0-127位，但从状态128到255这一段的解释就完全乱套了，比如135在法语，希伯来语，俄语编码中完全是不同的符号。

GB2312和GBK

中国10万汉字，256位也不够用。于是一张新编码表GB2312被中国科学家发明了。
用2个字节，也就是16个比特位，来表示绝大部分（65535个）常用汉字。后来，为了能显示更多的中文，又出台了GBK标准。

Unicode

因各个国家的编码表都不同。不同国家间通信又会乱码。

于是Unicode（万国码）来统一。
这套编码表将世界上所有的符号都纳入其中。每个符号都有一个独一无二的编码，现在Unicode可以容纳100多万个符号，所有语言都可以互通，一个网页上也可以显示多国语言。

万国码的缺点是让英文字符被迫占用两个字节，耗费计算机存储空间。（如A：用00010001就行，但是为了顺从统一，需要用两个字节：00000000 00010001）

UTF-8

UTF-8（8-bit Unicode Transformation Format）被提出。针对Unicode的可变长度字符编码。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。而当字符在ASCII码的范围时，就用一个字节表示，所以UTF-8还可以兼容ASCII编码。

Unicode与UTF-8这种暧昧的关系一言以蔽之：Unicode是内存编码的规范，而UTF-8是如何保存和传输Unicode的手段。

编码表对比

编码表	适用性	特点
ASCII码	英文大小写，字符，不支持中文	美国人发明，占用空间小，用一个字节就行
GB2312码、GBK码	支持中文	中国人发明，GBK是GB2312的升级，增加了更多原来没有的文字字符
Unicode码	支持国际语言，万国码	适用性强但占用空间大。在ASCII码前面补8个bit位就是Unicode码
UTF-8码	支持国际语言	Unicode的升级，两者容易互相转化。占用空间小、适用性强。ASCII码被UTF-8码包含。

编码方案使用情况表

编码表	当前使用情况	备注
ASCII码	-	-
GB2312码、GBK码	中文的文件和中文网站，使用GBK、GB2312	-
Unicode码	计算机内存中处理数据时使用的统一标准格式	Python3中，程序处理我们输入的字符串使用Unicode编码
UTF-8码	数据在硬盘上存储，或者网络上传输时，用的UTF-8	因为节省空间。程序来转换编码。

基于上表，有时候面对不同编码的数据，我们还需要手动操作实现编码转换。就要用到encode(编码)和decode(解码)。

编码操作和解码操作

编码：`encode()`

语法：

'你想编码的内容'.encode('你使用的编码表名称')

用法：

print('一天打鱼两个月晒网的小石头'.encode('utf-8'))
# b'\xe4\xb8\x80\xe5\xa4\xa9\xe6\x89\x93\xe9\xb1\xbc\xe4\xb8\xa4\xe4\xb8\xaa\xe6\x9c\x88\xe6\x99\x92\xe7\xbd\x91\xe7\x9a\x84\xe5\xb0\x8f\xe7\x9f\xb3\xe5\xa4\xb4'
print('I Love U'.encode('gbk'))
# b'I Love U'
print('小石头'.encode('utf-8'))
# b'\xe5\xb0\x8f\xe7\x9f\xb3\xe5\xa4\xb4'

将上述人类语言编码得到机器语言后的打印结果在注释里。

字母b

这里之所以有个字母b，代表他是bytes（字节）类型的数据。
可以用type()函数验证一下：

print(type(b'\xe5\xb0\x8f\xe7\x9f\xb3\xe5\xa4\xb4')) # <class 'bytes'>

符号\x

另外，几乎每个字母/数字前边都有的\x，他的作用是分隔符，用来分隔一个字节和另一个字节。

这样的分隔符，我们还见过：

<a href="https://www.baidu.com/s?wd=%e5%b0%8f%e7%9f%b3%e5%a4%b4" />

对比发现下边两段字符串，你有发现什么奥妙么！：

%e5%b0%8f%e7%9f%b3%e5%a4%b4

\xe5\xb0\x8f\xe7\x9f\xb3\xe5\xa4\xb4

%和\x一样，都是一种分隔符。只不过%是url中的、\x是python中的

解码：`decode()`

语法：

'你想解码的内容'.encode('你使用的编码表名称')

用法：

print(b'\xe5\xb0\x8f\xe7\x9f\xb3\xe5\xa4\xb4'.decode('UTF-8')) # 小石头

::: warning 注意
你要解码的内容得跟编码时用的编码表一致。不然会报错。
:::

也就是说，UTF-8编码的字节就一定要用UTF-8的规则解码，其他编码同理，否则就会出现乱码或者报错的情况，

print(b'\xe5\xb0\x8f\xe7\x9f\xb3\xe5\xa4\xb4'.decode('GBK'))
# 把utf-8编码的字符串用GBK来解码，就报错了。
# UnicodeDecodeError: 'gbk' codec can't decode byte 0xb4 in position 8: incomplete multibyte sequence

【python系统学习16】编码基础知识的更多相关文章

Redis系统学习一、基础知识
1.数据库 select 1 select 0 2.命令.关键字和值 redis不仅仅是一种简单的关键字-值型存储,从其核心概念来看,Redsi的5种数据结构中的每一个都至少有一个关键字和一个值.在 ...
MyBatis:学习笔记(1)——基础知识
MyBatis:学习笔记(1)--基础知识引入MyBatis JDBC编程的问题及解决设想 ☐ 数据库连接使用时创建,不使用时就释放,频繁开启和关闭,造成数据库资源浪费,影响数据库性能. ☐ 使用数 ...
VIM字符编码基础知识
1 字符编码基础知识字符编码是计算机技术中最基本和最重要的知识之一.如果缺乏相关知识,请自行恶补之.这里仅做最简要的说明. 1.1 字符编码概述所谓的字符编码,就是对人类发明的每一个文字进行数字 ...
Quartz学习笔记：基础知识
Quartz学习笔记:基础知识引入Quartz 关于任务调度关于任务调度,Java.util.Timer是最简单的一种实现任务调度的方法,简单的使用如下: import java.util.Tim ...
如何学习FPGA？FPGA学习必备的基础知识
如何学习FPGA?FPGA学习必备的基础知识时间:2013-08-12 来源:eepw 作者: 关键字:FPGA 基础知识 FPGA已成为现今的技术热点之一,无论学生还是工程师都希望 ...
C#学习笔记（基础知识回顾）之值类型和引用类型
一:C#把数据类型分为值类型和引用类型 1.1:从概念上来看,其区别是值类型直接存储值,而引用类型存储对值的引用. 1.2:这两种类型在内存的不同地方,值类型存储在堆栈中,而引用类型存储在托管对上.存 ...
Python专题三字符串的基础知识
Python专题三字符串的基础知识在Python中最重要的数据类型包括字符串.列表.元组和字典等.该篇主要讲述Python的字符串基础知识. 一.字符串基础字符串指一有序的字符序列集合,用单引号. ...
python爬虫之Beautiful Soup基础知识+实例
python爬虫之Beautiful Soup基础知识 Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库.它能通过你喜欢的转换器实现惯用的文档导航,查找,修改文档 ...
C#学习笔记（基础知识回顾）之值类型与引用类型转换（装箱和拆箱）
一:值类型和引用类型的含义参考前一篇文章 C#学习笔记(基础知识回顾)之值类型和引用类型 1.1,C#数据类型分为在栈上分配内存的值类型和在托管堆上分配内存的引用类型.如果int只不过是栈上的一个4字 ...

随机推荐

手写实现java栈结构，并实现简易的计算器（基于后缀算法）
一.定义栈是一种线性表结构,栈结构中有两端,对栈的操作都是对栈的一端进行操作的,那么被操作的一端称为栈顶,另一端则为栈底.对栈的操作其实就是只有两种,分别是入栈(也称为压栈)和出栈(也称为弹栈).入 ...
mysql查询表内所有字段名和备注
select distinct column_name as 字段名,column_comment as 字段备注 from information_schema.columns where tabl ...
MySQL JDBC Driver 8.0+设置服务器时区
遇到一个问题,线下环境测试数据的查询完全没有问题,但是线上环境却没法查询出数据,并且从mybatis输出的日志来看,查询参数也没有问题,数据库中数据也是存在的,查询参数类型是java.util.Dat ...
Linux暂时提升非root用户的权限
sudo 用于提升非root用户的某些命令执行权限 1,使用root用户,复制vim /etc/sudoers 文件的第91行修改为,想提升的用户名称 root ALL=(ALL) ALL admin ...
Struts Scan工具的使用
前言最近看了关于Struts2漏洞,参考文章 https://www.freebuf.com/vuls/168609.html,这篇文章里对Struts2的漏洞及原理进行了详细的讲解.自己也从网上找 ...
Linux下3种常用的网络测速工具
大家好,我是良许. 不管你用的是什么操作系统,网速都是你非常关心的一个性能指标,毕竟,谁都不想看个视频结果网速卡到你怀疑人生.本文介绍三个 Linux 命令行下的网络测速工具,让你随时随地知道你的网络 ...
uCOS2014.1.11（转载）(void*)0 的理解
一般把(void*)0定义为NULL表示这是个空指针void的含义void的字面意思是“无类型”,void *则为“无类型指针”,void *可以指向任何类型的数据.众所周知,如果指针p1和p2的类型 ...
[hdu5203]计数水题
思路:把一个木棍分成3段,使之能够构成三角形的方案总数可以这样计算,枚举一条边,然后可以推公式算出当前方案数.对于已知一条边的情况,也用公式推出.用max和min并维护下,以减少情况数目. #prag ...
管理环境一：venv
初衷: 在工作的时候,我们会有很多个项目,每个项目使用的库的版本不一样,导致我们切换项目的时候会很麻烦. 比如:我有两个django项目,项目一使用的版本是 django 1.7 , 项目二使用的版本 ...
Taro UI开发小程序实现左滑喜欢右滑不喜欢效果
前言:年后入职了一家新公司,与前同事交接完之后,发现公司有一个四端的项目(iOS,Android,H5,小程序),iOS和安卓都实现了左滑右滑的效果,而h5和小程序端没实现,询问得知前同事因网上没找到 ...

【python系统学习16】编码基础知识

编码

编码

进制

二进制

八进制