pytho学习笔记---编码

编解码

ASCII：1字节，0-255

GBK2313：常用的汉字，2万多个

GBK：对GBK2313的补充，支持藏文，2个字节表示一个汉字

big5：台湾，繁体字

unicode：万国码，2-4字节，只是在内存中使用，传输或者保存时要编码

UTF：Unicode transformation format

UTF-8：变长，1-4个字节，兼容ASCII，汉字2字节，好处是省空间，但是浪费时间

UTF-16：2字节

UTF-32：4字节

总而言之：

Unicode定义世界每个字符的索引值。

UTF8/UTF16实现Unicode的标准，把字符存储到存储介质中。

py3：

>>> s='a'
>>> type(s)
<class 'str'>
>>> s1=b'a'#py3中前面加b是变成bytes类型
>>> type(s1)
<class 'bytes'>
>>> s == s1
False
>>> s.encode()
b'a'
>>> s.encode() ==s1#编码之后s与s1相等
True
>>> type(s.encode())
<class 'bytes'>
>>> s.decode()#'str'对象没有'decode'属性，不能解码，报错
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'str' object has no attribute 'decode'
>>>

>>> import sys#导入sys
>>> dir(sys)#dir查看用法
>>> sys.getdefaultencoding()#获取当前编码格式
'utf-8'#py中默认编码格式为utf-8
>>>

s = 'a'--->str类型（type）---->unicode编码

s1 =b'a'--->bytes类型（type）---->字节编码（ascii,utf-8,gbk...）

encode编码/decode解码

Unicode---->编码----->utf-8,ascii,gbk

utf-8,ascii,gbk---->解码----->Unicod

py3中默认的编码格式是utf-8

utf-8编码中文一般为3个字节，gbk一般是2个字节

>>> s="光荣之路测试开发培训"
>>> type(s)
<class 'str'>
>>> s.encode()#不指定编码格式编码
b'\xe5\x85\x89\xe8\x8d\xa3\xe4\xb9\x8b\xe8\xb7\xaf\xe6\xb5\x8b\xe8\xaf\x95\xe5\x
bc\x80\xe5\x8f\x91\xe5\x9f\xb9\xe8\xae\xad'
>>> s.encode("utf-8")#指定utf-8模式，与不指定编码格式得出的结果一致
b'\xe5\x85\x89\xe8\x8d\xa3\xe4\xb9\x8b\xe8\xb7\xaf\xe6\xb5\x8b\xe8\xaf\x95\xe5\x
bc\x80\xe5\x8f\x91\xe5\x9f\xb9\xe8\xae\xad'
>>> s.encode("gbk")#指定gbk编码格式
b'\xb9\xe2\xc8\xd9\xd6\xae\xc2\xb7\xb2\xe2\xca\xd4\xbf\xaa\xb7\xa2\xc5\xe0\xd1\x
b5'
>>> len(s.encode("gbk"))#len内置函数查看长度
20
>>> len(s.encode("utf-8"))
30
>>>

>>> s=b"光荣之路测试开发培训"#字节只能包含ASCII文字字符，这样写会报错
File "<stdin>", line 1
SyntaxError: bytes can only contain ASCII literal characters.
>>> s="光荣之路测试开发培训"
>>> s="光荣之路测试开发培训".encode()#字符串后面直接加.encode来编码跟s.decode()一样
>>> s
b'\xe5\x85\x89\xe8\x8d\xa3\xe4\xb9\x8b\xe8\xb7\xaf\xe6\xb5\x8b\xe8\xaf\x95\xe5\x
bc\x80\xe5\x8f\x91\xe5\x9f\xb9\xe8\xae\xad'
>>> type(s)
<class 'bytes'>
>>> s.decode()#decode解码
'光荣之路测试开发培训'
>>> type(s.decode())
<class 'str'>
>>>

注意：用什么编码就对应的用什么解码，否则会报错或者乱码

>>> s="光荣之路测试开发培训".encode("gbk")#用gbk编码
>>> s
b'\xb9\xe2\xc8\xd9\xd6\xae\xc2\xb7\xb2\xe2\xca\xd4\xbf\xaa\xb7\xa2\xc5\xe0\xd1\x
b5'
>>> s.decode("utf-8")#用utf-8解码
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb9 in position 0: invalid#报错：'utf-8'编解码器不能解码字节0xb9在位置0:无效
start byte
>>>

>>> s.decode("gbk")#用gbk解码
'光荣之路测试开发培训'
>>>

py2:

>>> s ='a'
>>> type(s)
<type 'str'>
>>> s =u'a'#py2中前面加u就是unicode编码格式
>>> type(s)
<type 'unicode'>
>>> s ="光荣之路测试开发培训"
>>> s
'\xb9\xe2\xc8\xd9\xd6\xae\xc2\xb7\xb2\xe2\xca\xd4\xbf\xaa\xb7\xa2\xc5\xe0\xd1\xb5'

>>> type(s)
<type 'str'>
>>>

>>> s =u"光荣之路测试开发培训"
>>> s
u'\u5149\u8363\u4e4b\u8def\u6d4b\u8bd5\u5f00\u53d1\u57f9\u8bad'
>>> s =u"光荣之路测试开发培训".encode("gbk")
>>> s
'\xb9\xe2\xc8\xd9\xd6\xae\xc2\xb7\xb2\xe2\xca\xd4\xbf\xaa\xb7\xa2\xc5\xe0\xd1\xb5'
>>> s =u"光荣之路测试开发培训".encode("utf-8")
>>> s
'\xe5\x85\x89\xe8\x8d\xa3\xe4\xb9\x8b\xe8\xb7\xaf\xe6\xb5\x8b\xe8\xaf\x95\xe5\xbc\x80\xe5\x8f\x91\xe5\x9f\xb9\xe8\xae\xad'
>>>

>>> import sys
>>> sys.getdefaultencoding()#py2中默认使用ascii编码格式
'ascii'
>>>

>>> s=u"光荣之路".encode()
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)
>>>

练习：

分别在py2和py3下实现：
定义unicode类型的字符串，分别转换成utf-8和GBK
定义UTF-8类型的字符串，转换为GBK

py2

>>> s=u"天天向上"
>>> s.encode("utf-8")
'\xe5\xa4\xa9\xe5\xa4\xa9\xe5\x90\x91\xe4\xb8\x8a'
>>> s.encode("gbk")
'\xcc\xec\xcc\xec\xcf\xf2\xc9\xcf'
>>>

py3

>>> s="天天向上"
>>> s.encode("utf-8")
b'\xe5\xa4\xa9\xe5\xa4\xa9\xe5\x90\x91\xe4\xb8\x8a'
>>> s.encode("gbk")
b'\xcc\xec\xcc\xec\xcf\xf2\xc9\xcf'
>>>

1.if 表达式1：

表达式1为真执行

elif 表达式2：

表达式2为真执行

else：

以上所有的表达式都不为真

......

2.命令行里显示缩进模式

>>> while 1:
...     date =input("输入一个字母：")
...     if date == 'a':
...         continue
...     elif date == 'e':
...         break
...     elif date == 'r':
...         word = input("请输入一个字母：")
...     else:
...         print("输入错误！")
...         continue
...
输入一个字母：w
输入错误！
输入一个字母：e
>>>

练习：

输出100以内不能被5整除的数

思路：

1.生成1-100以内的列表

2.判断能否被5整除

for实现

>>> for i in range(1,101):
...     if i%5 ==0:
...         continue
...     else:
...         print(i,end=' ')
...
1 2 3 4 6 7 8 9 11 12 13 14 16 17 18 19 21 22 23 24 26 27 28 29 31 32 33 34 36 37 38 39 41 42 43 44 46 47 48 49 51 52 53 54 56 57 58 59 61 62 63 64 66 67 68 69 71 72 73 74 76 77 78 79 81 82 83 84 86 87 88 89 91 92 93 94 96 97 98 99 >>>
>>>

while实现
>>> num = 1
>>> while num<=100:
...     if num%5 !=0:
...         print(num)
...     num+=1
...
>>>

pytho学习笔记---编码的更多相关文章

java web 学习笔记编码问题总结
java web 学习笔记编码问题总结 1.非form表单中提交的中文参数---------------------------传递给Servlet服务器时,默认以iso-8859-1解码 ...
重温Servlet学习笔记--编码问题
在说编码问题之前,首先先了解一下常见的字符编码: ISO-8859-1: 拉丁编码,不支持中文 gbk,gb2312,gb18030:系统默认编码,是中国的国标码 utf-8: 支持几乎所有语言的编 ...
python 学习笔记-----编码问题
1.python 最早支持的是ASCII编码. 所以对于普通的字符串"ABC"为ASCII编码的形式.字母和数字之间的转换函数为ord('字母')和chr(‘数字’)函数. ord ...
[原创]java WEB学习笔记45：自定义HttpFilter类，理解多个Filter 代码的执行顺序，Filterdemo：禁用浏览器缓存的Filter，字符编码的Filter，检查用户是否登陆过的Filter
本博客为原创:综合尚硅谷(http://www.atguigu.com)的系统教程(深表感谢)和网络上的现有资源(博客,文档,图书等),资源的出处我会标明本博客的目的:①总结自己的学习过程,相当 ...
【视频编解码·学习笔记】8. 熵编码算法：基本算法列举 & 指数哥伦布编码
一.H.264中的熵编码基本方法: 熵编码具有消除数据之间统计冗余的功能,在编码端作为最后一道工序,将语法元素写入输出码流熵解码作为解码过程的第一步,将码流解析出语法元素供后续步骤重建图像使用在H ...
UFLDL深度学习笔记（一）反向传播与稀疏自编码
UFLDL深度学习笔记 (一)基本知识与稀疏自编码前言近来正在系统研究一下深度学习,作为新入门者,为了更好地理解.交流,准备把学习过程总结记录下来.最开始的规划是先学习理论推导:然后学习一两种开源 ...
UFLDL深度学习笔记（七）拓扑稀疏编码与矩阵化
UFLDL深度学习笔记 (七)拓扑稀疏编码与矩阵化主要思路前面几篇所讲的都是围绕神经网络展开的,一个标志就是激活函数非线性:在前人的研究中,也存在线性激活函数的稀疏编码,该方法试图直接学习数据的特 ...
UFLDL深度学习笔记（五）自编码线性解码器
UFLDL深度学习笔记 (五)自编码线性解码器 1. 基本问题在第一篇 UFLDL深度学习笔记 (一)基本知识与稀疏自编码中讨论了激活函数为\(sigmoid\)函数的系数自编码网络,本文要讨论&q ...
MySQL学习笔记5——编码
MySQL学习笔记5之编码编码 1.查看MySQL数据库编码 *SHOW VARIABLES LIK 'char%'; 2.编码解释 *character_set_client:MySQL使用该编码 ...

随机推荐

基于vue移动音乐webapp跨域请求失败的问题解决
在学习一位vue大牛的课程<VUE2.0移动端音乐App开发>时,由于vue的版本原因遇到了一些问题这是其中之一,花费了很多的时间去解决虽然搞定了这个问题,但是很多东西理解也不是很到位 ...
mac搭配Nginx服务器常见问题
推流服务器主要是使用了开源的nginx和rtmp模块,网上也有很多资料,不过对有些可能出现的问题没有很好的总结. 安装brew 使用Mac进行开发很久的老司机应该对这个工具很熟悉了.brew是一个第三 ...
冒泡排序到k趟
浙大pat题目将N个整数按从小到大排序的冒泡排序法是这样工作的:从头到尾比较相邻两个元素,如果前面的元素大于其紧随的后面元素,则交换它们.通过一遍扫描,则最后一个元素必定是最大的元素.然后用同样的方 ...
Python全栈之路----函数----内置方法
Built-in Functions abs() dict() help() min() setattr() all() dir() hex() next() slice() any() divmod ...
LeetCode - Fruit Into Baskets
In a row of trees, the i-th tree produces fruit with type tree[i]. You start at any tree of your cho ...
PythonStudy——汇编语言 Assembly Language
汇编语言汇编语言(assembly language)是一种用于电子计算机.微处理器.微控制器或其他可编程器件的低级语言,亦称为符号语言.在汇编语言中,用助记符(Mnemonics)代替机器指令的操 ...
day 44 JavaScript
一.javascript简介 JavaScript是前台语言 JavaScript是前台语言,而不是后台语言. JavaScript运行在用户的终端网页上,而不是服务器上,所以我们称为“前台语言”.J ...
libsvm数据格式
train.txt 1 101:1.2 102:0.03 0 1:2.1 10001:300 10002:400 0 0:1.3 1:0.3 1 0:0.01 1:0.3 0 0:0.2 1:0.3 ...
C# datagridview大小跟随窗口动态改变（转）
在C#中使用winform布局的时候,拖一个datagridview到窗体上面,将datagridview调整为适合窗体的大小. 但是运行之后,点击最大化按钮的时候,发现datagridview的大小 ...
[转]SQL server2008 导入超大SQL脚本文件（超过10M）
同事给我一个sqlserver的学习库,sql脚本导出有300m,gui执行有内存溢出的错误报出来,所以问了一下度娘,学而时习之:) 1. SQL server2008 导入超大SQL脚本文件(超过1 ...

pytho学习笔记---编码

pytho学习笔记---编码的更多相关文章

随机推荐

热门专题