ascii、unicode、utf-8、gbk 区别？

Mr_Riven 2024-08-22 20:14:09 原文

发展史： https://www.cnblogs.com/houxt/p/11250878.html

python2内容进行编码（默认ascii）,而python3对内容进行编码的默认为utf-8。


ascii: 
最多只能用8位来表示（一个字节），即：2**8 = 256（即pow(2,8)=256），
所以，ASCII码最多只能表示256个符号。

unicode:
万国码，任何一个字符==两个字节

utf-8:
万国码的升级版,一个中文字符==三个字节,英文是一个字节,欧洲的是2个字节

gbk:
国内版本,一个中文字符==2个字节,英文是一个字节

gbk转utf-8,则需通过媒介unicode

ascii

A：00000010 8位一个字节

unicode

A：00000000 00000001 00000010 00000100 32位四个字节

中：00000000 00000001 00000010 00000100 32位四个字节

utf-8

A：00000110 8位一个字节

中：00000010 00000110 16位两个字节

gbk

A：00000110 8位一个字节

中：00000010 00000110 16位两个字节

1，各个编码之间的二进制，是不能互相识别的，会产生乱码。

2，文件的存储，传输，不能是unicode （只能是utf-8 utf-16 gbk gbk2312 ascii等）

python3

　　str 在内存中是Unicode编码。

　　　　bytes类型

　　　　对于英文：

　　　　　　str：表现形式：s = 'alex'

　　　　　　　　编码方式：010101010 unicode

　　　　　bytes：表现形式：s = b'alex'

　　　　　　　　编码方式：000101010 utf-8 gbk。。。。

　　　　对于中文：

　　　　　　 str：表现形式：s = '中国'

　　　　　　　　编码方式：010101010 unicode

　　　　　bytes：表现形式：s = b' x\e91\e91\e01\e21\e31\e32'

　　　　　　　　编码方式：000101010 utf-8 gbk。。。。

　encode 编码，如何将 str ——> bytes

　　　　使用方法： str.encode('utf-8')

　decode 解码，如何将 bytes——> str

使用方法： bytes.decode('utf-8')

ascii、unicode、utf-8、gbk 区别？的更多相关文章

ASCII UNICODE UTF "口水文"
最近接了一个单是需要把非 UTF-8 (No BOM)编码的文件转换成 UTF-8 (No BOM),若此文件是 UTF-8 但带有 BOM ,需要转换成不带 BOM 的.于是开启了一天的阅读.首先花 ...
ASCII,unicode, utf8 ,big5 ,gb2312,gbk,gb18030等几种常用编码区别（转载）
原文出处:http://www.blogjava.net/xcp/archive/2009/10/29/coding2.html 最近老为编码问题而烦燥,下定决心一定要将其弄明白!本文主要总结网上一些 ...
浅谈ASCII 、ISO8859-1、GB2312、GBK、Unicode、UTF-8 的区别。
浅谈ASCII .ISO8859-1.GB2312.GBK.Unicode.UTF-8 的区别. 首先,先科普一下什么是字符编码.字符是指一种语言中使用的基本实体,比如英文中的26个英文字母,标点符号 ...
各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解
来自:http://blog.csdn.net/lvxiangan/article/details/8151670 ------------------------------------------ ...
ASCII\UNICODE编码的区别
前几天,Google给我Hotmail邮箱发了封确认信.我看不懂,不是因为我英文不行,而是"???? ????? ??? ????"的内容让我不知所措.有好多程序员处理不好编码问题 ...
字符编码ANSI、ASCII、GB2312、GBK、GB18030、UNICODE、UTF-8小结
编码和解码可以理解成二进制和字符(广义的字符,包括汉字等)的映射表,编码即从字符映射至二进制,解码则为逆过程. 1.英语字符编码ASCII 开始计算机只在美国用.8字节一共可以组合出256(2的8次方 ...
浅显总结ASCII Unicode UTF-8的区别
如果觉得此地排版不好,欢迎访问我的博客浅显总结ASCII Unicode UTF-8的区别制作表单时,为了追求更好的用户交互体验,常常会有提示性的内容,比如提醒用户字符的限制.由于英文,中文字符的 ...
了解ASCII、gb系列、Unicode、UTF-8的区别
转自:http://www.douban.com/note/334994123/?type=rec ● 为什么有这么多编码? ● UTF-8和GB2312有什么区别? ● 我们在国内做网站是用UTF- ...
is 和 == 的区别,utf和gbk的转换,join用法
is 和 == 的区别 # is 比较的是内存地址 # == 比较的是值 a = 'alex' b = 'alex' #int,str(小数据池)会被缓存,为了节约内存 print(id(a),id( ...
关于编码的发展演变：ASCII、GB2312、GBK、gb18030、Unicode、UTF-8
[1]ASCII 每个字符占据1bytes(字节),第一次以规范标准发表是在1967年,最后一次修订是在1986年.用二进制表示的话最高位必须为0(扩展的ASCII不在考虑范围内),因此ASCII只能 ...

随机推荐

TCP协议的11种状态及其变化过程？传输的内容又是什么？
在TCP的11种状态变迁中,我们需要用到TCP头部的三个标志位: 1.SYN,SYN=1表示这是一个连接请求报文或者连接接受报文 2.ACK,ACK=1,表示确认号生效 3.FIN,FIN=1表示发送 ...
Docker部署ELK 7.0.1集群之Logstash安装介绍
1.下载镜像 [root@vanje-dev01 ~]# docker pull logstash: 2.安装部署 2.1 创建宿主映射目录 [root@vanje-dev01 ~]# mkdir ...
阿里P8架构师谈：阿里双11秒杀系统如何设计？
秒杀是电商业务里的标志性事件,这样的典型高并发场景会遇见什么样的挑战呢,然后又是如何来解决的呢? 秒杀活动场景淘宝双11秒杀场景,大量的用户短时间内涌入,瞬间流量巨大(高并发),比如:1000万人同 ...
python学习-61 类
类 (在python2里) 1.属性 ---数据属性 ---函数属性查看属性字典 class chinese: rz:'huangzhong' print(chinese.__dict__) 运行结 ...
django中的media
我们用Django写一个网站,可能会需要将用户注册时的头像展示到页面上,当然一开始学的用户上传头像文件都是在项目目录下的,那我们在网页上获取这个头像文件是获取不到的,此时我们需要配置一下media,才 ...
我在LeetCode的首次刷题
到现在为止,我才发现我的博客一篇感受,心得,体会之言都没有. 今天就来随便扯扯. 刷题,是我最近一直在干的事情.也就每天写一两个.忘了就没写这种.也收藏了好几个刷题网站,当然第一次接触肯定是 WUST ...
Python Web开发技术栈
导出Excel的2个方法
导出到Excel的两种方法第一种: 1.首先创建Excle模板,另存为 “xml”文件.使用记事本等编辑软件打开文件的代码.然后另存为视图文件“Export.cshtml”; 2.控制器操作 pub ...
动画处理<并行和串行>
并行动画当多个动画定义同时指向某个组件,并使用动画控制器启动时,就产生了并行动画(Parallel Animation).例如我们可以让一个组件: 移动的同时改变大小旋转的同时边界颜色闪烁圆形图 ...
有状态的bean和无状态的bean的区别
有状态会话bean :每个用户有自己特有的一个实例,在用户的生存期内,bean保持了用户的信息,即“有状态”:一旦用户灭亡(调用结束或实例结束),bean的生命期也告结束.即每个用户最初都会得到一个初 ...