一、摆个图

DJ DJ DJ Decode、 J 解码

　　首先得知道字符串有哪些编码格式，至于为什么会有这么多的编码格式，以后再了解更新。

　　　　1、ASCII 占1个字节，只支持英文

　　 2、GB2312 占2个字节，支持6700+汉字

　　3、GBK GB2312的升级版，支持21000+汉字，中文2个字节。

　　4、Unicode 2-4字节已经收录136690个字符

　　5、UTF-8：使用1、2、3、4个字节表示所有字符；优先使用1个字符、无法满足则使增加一个字节，最多4个字节。

　　　　　　　　　　英文占1个字节、欧洲语系占2个、东亚占3个，其它及特殊字符占4个。中文3个字节。

　　6、UTF-16：使用2、4个字节表示所有字符；优先使用2个字节，否则使用4个字节表示。

　　在 python2 和 python3 默认的编码格式是不一样的。Python2默认是ASCII编码，python3 是unicode编码。所以在用python2 时候会绕一下。

　　一般在用 python2 时候会先在开头加上

　　　　#coding=utf-8

　　Python2中默认是ASCII码，一般会加入以utf-8编程。那么这个时候所有用到的字符串都是 utf-8 的编码格式，中文也不例外。

#coding=utf-8

#Python2中默认是ASCII码，一般会加入以utf-8编程

a = '编码'                       # a是utf-8类型

b = a.decode('utf-8')       # b是Unicode类型

c = b.encode('gbk')        #c是gbk类型

d = c.decode('gbk').encode('utf-8')   #先将c转换成Unicode，再转成utf-8

print a ,b,c,d

print type(a),type(b),type(c),type(d)

python3 默认是Unicode 编码格式

a = '编码'                       # a是unicode类型

b = a.encode('utf-8')       # b是utf-8类型

c = a.encode('gbk')        #c是gbk类型

print (a ,b,c)

print (type(a),type(b),type(c))

#python3默认是unicode类型

　　encode 出来的永远是字节串。

二、encode、decode

　　字符串的编码解码第一次接触是在 socket编程，socket 套接字传输的必须是字节串，其实Bytes才是计算机里真正的数据类型，也是网络数据传输中唯一的数据格式，什么Json，Xml这些格式的字符串最后想传输也都得转成Bytes的数据类型才能通过socket进行传输，而Bytes的数据与字符串类型数据的转换就是编码与解码的转换，utf-8是编解码时指定的格式。所以在发送数据时候做了一步字符串编码 str.encode('utf-8') ，编码格式选的 utf-8，这样就把字符串变成了字节串。【在python3 时候的操作】

　　在接收端，接收到的数据需要转码，rev.decode('utf-8') ,编解码的格式可以自己选择。

　　这里存在一个数据传输隐患。当传输的数据超过一次性最大接收量，或者多次传输，那数据流被分割为多个部分，那么我们就不知道某个字符是否由于位于分割边界而从中间被分开。此时对部分接受的信息进行解码是很危险的。比如中文，在编码后是多字节的形式。编码方式主要分为两大类，单字节编码和多字节编码，前者即每个字符与字节的值唯一对应，后者中每个字符可能会用多个字节来表示。由于在一些多字节编码方式中，用于表示不同字符的字节数是不同的，因此操作起来要多加小心。

三、序列化、反序列化 json

　　不同的编程语言有一个共同的数据类型---字符串类型。

　　所以要实现不同的编程语言之间对象的传递，就必须把对象序列化为标准格式，比如XML，但更好的方法是序列化为JSON，因为JSON表示出来就是一个字符串，可以被所有语言读取，也可以方便地存储到磁盘或者通过网络传输。JSON不仅是标准格式，并且比XML更快，而且可以直接在Web页面中读取，非常方便。

　　在python中，序列化可以理解为：把python的对象编码转换为json格式的字符串，反序列化可以理解为：把json格式字符串解码为python数据对象。在python的标准库中，专门提供了json库与pickle库来处理这部分。

　　json的dumps方法和loads方法，可实现数据的序列化和反序列化。具体来说，dumps方法，可将json格式数据序列为Python的相关的数据类型；loads方法则是相反，把python数据类型转换为json相应的数据类型格式要求。在序列化时，中文汉字总是被转换为unicode码，在dumps函数中添加参数ensure_ascii=False即可解决。

import json

print (json.__all__)  #查看json库的所有方法

['dump', 'dumps', 'load', 'loads', 'JSONDecoder', 'JSONEncoder']


=========================================== dumps 序列化

未在dumps函数中添加参数ensure_ascii=False，结果如下：

#coding: utf-8

import json

dict = {'name':'zhangsan', 'age':33, 'address':'红星路'}

print('未序列化前的数据类型为:', type(dict))

print('为序列化前的数据：', dict)

#对dict进行序列化的处理

dict_xu = json.dumps(dict)  #直接进行序列化

print('序列化后的数据类型为：', type(dict_xu))

print('序列化后的数据为：', dict_xu)

结果：

未序列化前的数据类型为: <class 'dict'>

为序列化前的数据： {'name': 'zhangsan', 'address': '红星路', 'age': 33}

序列化后的数据类型为： <class 'str'>

序列化后的数据为： {"name": "zhangsan", "address": "\u7ea2\u661f\u8def", "age": 33}

在dumps函数中添加参数ensure_ascii=False，结果如下：

#coding: utf-8

import json

dict = {'name':'zhangsan', 'age':33, 'address':'红星路'}

print('未序列化前的数据类型为:', type(dict))

print('为序列化前的数据：', dict)

#对dict进行序列化的处理

dict_xu = json.dumps(dict,ensure_ascii=False)  #添加ensure_ascii=False进行序列化

print('序列化后的数据类型为：', type(dict_xu))

print('序列化后的数据为：', dict_xu)

结果：

未序列化前的数据类型为: <class 'dict'>

为序列化前的数据： {'address': '红星路', 'age': 33, 'name': 'zhangsan'}

序列化后的数据类型为： <class 'str'>

序列化后的数据为： {"address": "红星路", "age": 33, "name": "zhangsan"}

==================================================== loads 反序列化

#coding: utf-8

import json

dict = {'name':'zhangsan', 'age':33, 'address':'红星路'}

print('未序列化前的数据类型为:', type(dict))

print('为序列化前的数据：', dict)

#对dict进行序列化的处理

dict_xu = json.dumps(dict,ensure_ascii=False)  #添加ensure_ascii=False进行序列化

print('序列化后的数据类型为：', type(dict_xu))

print('序列化后的数据为：', dict_xu)

#对dict_xu进行反序列化处理

dict_fan = json.loads(dict_xu)

print('反序列化后的数据类型为：', type(dict_fan))

print('反序列化后的数据为: ', dict_fan)

结果：

未序列化前的数据类型为: <class 'dict'>

为序列化前的数据： {'name': 'zhangsan', 'age': 33, 'address': '红星路'}

序列化后的数据类型为： <class 'str'>

序列化后的数据为： {"name": "zhangsan", "age": 33, "address": "红星路"}

反序列化后的数据类型为： <class 'dict'>

反序列化后的数据为:  {'name': 'zhangsan', 'age': 33, 'address': '红星路'}

　　在实际运用中，序列化或者反序列化的可能是一个文件的形式，不可能像如上写的那样简单的，下来就来实现这部分，把文件内容进行序列化和反序列化，

序列化，  两步操作：1、先序列化 列表对象 ；2、步把序列化成的字符串写入文件：

反序列化，两步操作：1、先读取文件的字符串对象；2、然后反序列化成列表对象：

#coding: utf-8

import json

list = ['Apple','Huawei','selenium','java','python']

#把list先序列化，写入到一个文件中

# 两步操作 1步先序列化 列表对象 2步把序列化成的字符串写入文件

json.dump(list, open('e:/test.txt','w'))

r1=open('e:/test.txt','r')

print(r1.read())

#------------------------------------------------------------

#两步操作：1、先读取文件的字符串对象；2、然后反序列化成列表对象

res=json.load(open('e:/test.txt','r'))

print (res)

print('数据类型:',type(res))

结果：

["Apple", "Huawei", "selenium", "java", "python"]

['Apple', 'Huawei', 'selenium', 'java', 'python']

数据类型: <class 'list'>

四、https://www.cnblogs.com/xyn123/p/8869754.html 参考

python 的 encode 、decode、字节串、字符串的更多相关文章

python编码encode decode(解惑)
关于python 字符串编码一直没有搞清楚,今天总结了一下. Python 字符串类型 Python有两种字符串类型:str 与 unicode. 字符串实例 # -*- coding: utf-8 ...
[Python函数]encode,decode
前言: 我们知道,计算机是以二进制为单位的,也就是说计算机只识别0和1,也就是我们平时在电脑上看到的文字,只有先变成0和1,计算机才会识别它的意思.这种数据和二进制的转换规则就是编码.计算机的发展中, ...
字符编码和python使用encode,decode转换utf-8, gbk, gb2312
ASCII码标准ASCII码使用7位二进制数表示大写或小写字母,数字0到9标点符号以及在美式英语中使用的特殊控制字符. 在标准ASCII码中,最高位(b7)用作奇偶校验位,所谓奇偶校验,是指在代码传 ...
python字典、字符串（json串）、字节串之间的转化
字典和json字符串(本质也是字符串)之间的转化用json.dumps和json.loads() json.dumps(): 字典→json字符串 json.loads(): json字符 ...
python经常使用的十进制、16进制、字符串、字节串之间的转换（长期更新帖）
进行协议解析时.总是会遇到各种各样的数据转换的问题,从二进制到十进制,从字节串到整数等等废话不多上.直接上样例整数之间的进制转换: 10进制转16进制: hex(16) ==> 0x10 ...
python常用的十进制、16进制、字符串、字节串之间的转换
进行协议解析时,总是会遇到各种各样的数据转换的问题,从二进制到十进制,从字节串到整数等等废话不多上,直接上例子整数之间的进制转换: 10进制转16进制: hex(16) ==> 0x10 ...
[转]python常用的十进制、16进制、字符串、字节串之间的转换
阅读目录(Content) 整数之间的进制转换: 字符串转整数: 字节串转整数: 整数转字节串: 字符串转字节串: 字节串转字符串: 测试用的python源码进行协议解析时,总是会遇到各种各样的数据 ...
python--常用的十进制、16进制、字符串、字节串之间的转换
进行协议解析时,总是会遇到各种各样的数据转换的问题,从二进制到十进制,从字节串到整数等等整数之间的进制转换: 10进制转16进制: hex(16) ==> 0x10 16进制转10进制 ...
对于Python中的字节串bytes和字符串以及转义字符的新的认识
事情的起因是之前同学叫我帮他用Python修改一个压缩包的二进制内容用来做fuzz,根据他的要求,把压缩包test.rar以十六进制的方式打开,每次修改其中一个十六进制字符串并保存为一个新的rar用来 ...

随机推荐

Python进阶-Ⅸ 递归二分法
1.算法英文名:algorithm,就是计算的方法.# 是截止到目前,人类发现的针对特定场景的,最优的计算方法.是人类智慧的结晶.# 人脑是复杂的,电脑其实很简单.比如: 999 * 123 人类会 ...
数据结构——链队列（linked queue）
/* linkedQueue.c */ /* 链队列 */ #include <stdio.h> #include <stdlib.h> #include <stdboo ...
<Random> 380 381（hard） 138
380. Insert Delete GetRandom O(1) class RandomizedSet { ArrayList<Integer> nums; HashMap<In ...
【php】day01
一.PHPCORE基础 1.什么是PHP:[Hypertext Preprocessor] WEB程序开发语言,运行在服务器端的 ...
CF1188C Array Beauty（DP）
日常降智. 不过还是第一次和 2700 的题正解这么近呢-- 由于排序后不影响答案,而且直觉告诉我们排序后会更好做,不妨排个序. 直觉告诉我们,变成求最小差 $\ge v$ 的方案数会比最小差 \ ...
工作中常用的Linux命令介绍与实践
前言做后端开发的同学,一般都会接触到服务器,而我们现在的系统用的比较多的服务器系统就是linux了,平时多多少少也会接触到一些linux下的shell命令.我们来介绍下linux一些常用的命令和使用 ...
Nodejs操作MySQL数据库
https://github.com/mysqljs/mysql 如何用nodejs操作MySql数据呢,其实写法还是简单的, 1.开始在你的node项目中 npm install mysql - ...
用友U8合同执行单保存报错，提示“语法错误或违反访问规则”
问题描述用户参照合同录入第一阶段的执行单,保存时提示“语法错误或违反访问规则”,其他合同均正常,只有这张合同出现这个问题. 解决过程语法错误或违反访问规则是SQL Server常见的报错,但其他合 ...
VUE的$refs和$el的使用
ref 被用来给元素或子组件注册引用信息 ref 有三种用法: 1.ref 加在普通的元素上,用this.$refs.(ref值) 获取到的是dom元素 2.ref 加在子组件上,用this.$ref ...
MySQL如何定位并优化慢查询sql
1.如何定位并优化慢查询sql a.根据慢日志定位慢查询sql SHOW VARIABLES LIKE '%query%' 查询慢日志相关信息 slow_query_log 默认是off关闭 ...

python 的 encode 、decode、字节串、字符串

DJ DJ DJ Decode、 J 解码

python 的 encode 、decode、字节串、字符串的更多相关文章

随机推荐

热门专题