1. 序列化模块

什么是序列化呢?

序列化的本质就是将一种数据结构(如字典、列表)等转换成一个特殊的序列(字符串或者bytes)的过程就叫做序列化。

为什么要有序列化模块?

如果你写入文件中的字符串是一个序列化后的特殊的字符串,那么当你从文件中读取出来,是可以转化回原数据结构的。

作用及用途

序列化模块就是将一个常见的数据结构转化成一个特殊的序列,并且这个特殊的序列还可以反解回去。它的主要用途:文件读写数据网络传输数据

1.1 json序列化(很重要)

  • 不同语言都遵循json数据转化格式,即不同语言都使用的特殊字符串。
  • json序列化只支持部分Python数据结构:dict,list, tuple,str,int, float,True,False,None

json模块

json模块是将满足条件的数据结构转化成特殊的字符串,并且也可以反序列化还原回去。

上面介绍我已经说过了,序列化模块总共只有两种用法,要不就是用于网络传输的中间环节,要不就是文件存储的中间环节,所以json模块总共就有两对四个方法:

用于网络传输:dumps、loads

用于文件写读:dump、load

dumps、loads

  1. 将字典类型转换成字符串类型
  1. import json
  2. dic = {'k1':'v1','k2':'v2','k3':'v3'}
  3. str_dic = json.dumps(dic) #序列化:将一个字典转换成一个字符串
  4. print(type(str_dic),repr(str_dic))
  5. 结果:
  6. #<class 'str'> '{"k3": "v3", "k1": "v1", "k2": "v2"}'
  7. #注意,json转换完的字符串类型的字典中的字符串是由""表示的
  1. 将字符串类型的字典转换成字典类型
  1. import json
  2. dic2 = json.loads(str_dic) #反序列化:将一个字符串格式的字典转换成一个字典
  3. #注意,要用json的loads功能处理的字符串类型的字典中的字符串必须由""表示
  4. print(type(dic2),dic2)
  5. 结果:
  6. #<class 'dict'> {'k1': 'v1', 'k2': 'v2', 'k3': 'v3'}
  1. 还支持列表类型
  1. list_dic = [1,['a','b','c'],3,{'k1':'v1','k2':'v2'}]
  2. str_dic = json.dumps(list_dic) #也可以处理嵌套的数据类型
  3. print(type(str_dic),repr(str_dic))
  4. 结果:
  5. <class 'str'> '[1, ["a", "b", "c"], 3, {"k1": "v1", "k2": "v2"}]'
  6. list_dic2 = json.loads(str_dic)
  7. print(type(list_dic2),list_dic2)
  8. 结果:
  9. #<class 'list'> [1, ['a', 'b', 'c'], 3, {'k1': 'v1', 'k2': 'v2'}]

dump、load

1.将对象转换成字符串写入到文件当中

  1. import json
  2. f = open('json_file.json','w')
  3. dic = {'k1':'v1','k2':'v2','k3':'v3'}
  4. json.dump(dic,f) #dump方法接收一个文件句柄,直接将字典转换成json字符串写入文件
  5. f.close()
  6. # json文件也是文件,就是专门存储json字符串的文件。

2.将文件中的字符串类型的字典转换成字典

  1. import json
  2. f = open('json_file.json')
  3. dic2 = json.load(f) #load方法接收一个文件句柄,直接将文件中的json字符串转换成数据结构返回
  4. f.close()
  5. print(type(dic2),dic2)
四种方法其他参数说明:

ensure_ascii:,当它为True的时候,所有非ASCII码字符显示为\uXXXX序列,只需在dump时将ensure_ascii设置为False即可,此时存入json的中文即可正常显示。

  1. json.dump(dic,f,ensure_ascii=True)
  2. 结果:
  3. {"k1": "v1", "\u5468\u9053\u9555": "\u715e\u7b14"}
  4. json.dump(dic,f,ensure_ascii=False)
  5. 结果:
  6. {"k1": "v1", "周道镕": "煞笔"}

separators:分隔符,实际上是(item_separator, dict_separator)的一个元组,默认的就是(,,:);这表示dictionary内keys之间用“,”隔开,而KEY和value之间用“:”隔开。

  1. json.dump(dic,f,separators=("*","+"))
  2. 结果:
  3. {"k1"+"v1"*"k2"+"v2"*"k3"+"v3"}

sort_keys:将数据根据keys的值进行排序。 剩下的自己看源码研究

  1. dic = {'k3':'v3','k2':'v2','k1':'v1'}
  2. json.dump(dic,f,sort_keys=True)
  3. 结果:
  4. {"k1": "v1", "k2": "v2", "k3": "v3"}
  5. dic = {'k3':'v3','k2':'v2','k1':'v1'}
  6. json.dump(dic,f,sort_keys=False)
  7. 结果:
  8. {"k1": "v1", "k2": "v2", "k3": "v3"}

json序列化存储多个数据到同一个文件中

对于json序列化,存储多个数据到一个文件中是有问题的,默认一个json文件只能存储一个json数据,但是也可以解决,举例说明:

  1. 对于json 存储多个数据到文件中
  2. dic1 = {'name':'oldboy1'}
  3. dic2 = {'name':'oldboy2'}
  4. dic3 = {'name':'oldboy3'}
  5. f = open('序列化',encoding='utf-8',mode='a')
  6. json.dump(dic1,f)
  7. json.dump(dic2,f)
  8. json.dump(dic3,f)
  9. f.close()
  10. f = open('序列化',encoding='utf-8')
  11. ret = json.load(f)
  12. ret1 = json.load(f)
  13. ret2 = json.load(f)
  14. print(ret)

上边的代码会报错,解决方法:

  1. dic1 = {'name':'oldboy1'}
  2. dic2 = {'name':'oldboy2'}
  3. dic3 = {'name':'oldboy3'}
  4. f = open('序列化',encoding='utf-8',mode='a')
  5. str1 = json.dumps(dic1)
  6. f.write(str1+'\n')
  7. str2 = json.dumps(dic2)
  8. f.write(str2+'\n')
  9. str3 = json.dumps(dic3)
  10. f.write(str3+'\n')
  11. f.close()
  12. f = open('序列化',encoding='utf-8')
  13. for line in f:
  14. print(json.loads(line))
  15. 结果:
  16. {'name': 'oldboy1'}
  17. {'name': 'oldboy2'}
  18. {'name': 'oldboy3'}
  19. 文件同是

1.2 pickle序列化

  • 只能是Python语言遵循的一种数据转化格式,只能在python语言中使用。
  • 支持Python所有的数据类型包括实例化对象

1.2 pickle模块

pickle模块是将Python所有的数据结构以及对象等转化成bytes类型,然后还可以反序列化还原回去。

pickle模块是只能Python语言识别的序列化模块。如果把序列化模块比喻成全世界公认的一种交流语言,也就是标准的话,json就是像是英语,全世界(python,java,php,C,等等)都遵循这个标准。而pickle就是中文,只有中国人(python)作为第一交流语言。

既然只是Python语言使用,那么它支持Python所有的数据类型包括后面我们要讲的实例化对象等,它能将这些所有的数据结构序列化成特殊的bytes,然后还可以反序列化还原。使用上与json几乎差不多,也是两对四个方法。

用于网络传输:dumps、loads

用于文件写读:dump、load

dumps、loads

  1. import pickle
  2. dic = {'k1':'v1','k2':'v2','k3':'v3'}
  3. str_dic = pickle.dumps(dic)
  4. print(str_dic) # 类似bytes类型
  5. 结果:一串b'类似bytes
  6. dic2 = pickle.loads(str_dic)
  7. print(dic2) #字典
  8. 结果:
  9. {'k1': 'v1', 'k2': 'v2', 'k3': 'v3'}
  10. # 还可以序列化对象
  11. import pickle
  12. def func():
  13. print(666)
  14. ret = pickle.dumps(func)
  15. print(ret,type(ret)) # b'\x80\x03c__main__\nfunc\nq\x00.' <class 'bytes'>
  16. f1 = pickle.loads(ret) # f1得到 func函数的内存地址
  17. f1() # 执行func函数
  18. 结果:
  19. b'\x80\x03c__main__\nfunc\nq\x00.' <class 'bytes'>
  20. 666

dump、load

  1. dic = {(1,2):'oldboy',1:True,'set':{1,2,3}}
  2. f = open('pick序列化',mode='wb')
  3. pickle.dump(dic,f)
  4. f.close()
  5. with open('pick序列化',mode='wb') as f1:
  6. pickle.dump(dic,f1)

pickle序列化存储多个数据到一个文件中

  1. dic1 = {'name':'oldboy1'}
  2. dic2 = {'name':'oldboy2'}
  3. dic3 = {'name':'oldboy3'}
  4. f = open('pick多数据',mode='wb')
  5. pickle.dump(dic1,f)
  6. pickle.dump(dic2,f)
  7. pickle.dump(dic3,f)
  8. f.close()
  9. f = open('pick多数据',mode='rb')
  10. while True:
  11. try:
  12. print(pickle.load(f))
  13. except EOFError:
  14. break
  15. f.close()

1.3 shelve模块:类似于字典的操作方式去操作特殊的字符串(了解即可)

2. os

os模块是与操作系统交互的一个接口,它提供的功能多与工作目录,路径,文件等相关。

2.1当前执行这个python文件的工作目录相关的工作路径

  1. os.getcwd() 获取当前工作目录,即当前python脚本工作目录路径 ***
  2. os.chdir("dirname") 改变当前脚本工作目录;相当于shellcd **
  3. os.curdir 返回当前目录: ('.') **
  4. os.pardir 获取当前目录的父目录字符串名:('..') **
  1. import os
  2. path = "H:\Python代码文件\python24期\day08"
  3. # 查看当前工作目录
  4. retval = os.getcwd()
  5. print("当前工作目录为 %s" % retval)
  6. # 修改当前工作目录
  7. os.chdir(path)
  8. # 查看修改后的工作目录
  9. retval = os.getcwd()
  10. print("当前工作目录为 %s" % retval)
  11. print(os.curdir)
  12. print(os.pardir)
  13. 结果:
  14. 当前工作目录为 H:\Python代码文件\python24\测test
  15. 当前工作目录为 H:\Python代码文件\python24\day08
  16. .
  17. ..

2.2文件夹相关

  1. os.makedirs('dirname1/dirname2') #可生成多层递归目录 ***
  2. os.removedirs('dirname1') #若目录为空,则删除,并递归到上一级目录,如若也为空,则删除,依此类推 ***
  3. os.mkdir('dirname') #生成单级目录;相当于shell中mkdir dirname ***
  4. os.rmdir('dirname') #删除单级空目录,若目录不为空则无法删除,报错;相当于shell中rmdir dirname ***
  5. os.listdir('dirname') #列出指定目录下的所有文件和子目录,包括隐藏文件,并以列表方式打印 **

2.3文件相关

  1. os.remove() 删除一个文件 ***
  2. os.rename("oldname","newname") 重命名文件/目录 ***
  3. os.stat('path/filename') 获取文件/目录信息 **
  4. print(os.stat(r'H:\Python代码文件\python24期\测试test\test.py') ) #获取文件/目录信息 **
  5. 结果:
  6. os.stat_result(st_mode=33206, st_ino=18014398509485740, st_dev=2290708642, st_nlink=1, st_uid=0, st_gid=0, st_size=35882, st_atime=1563693354, st_mtime=1563693354, st_ctime=1563693354)

2.4路径相关

  1. os.path.abspath(path) 返回path规范化的绝对路径 ***
  2. print(os.path.abspath(r"./test.py")) #返回path规范化的绝对路径 ***
  3. 结果:
  4. H:\Python代码文件\python24\测test\test.py
  5. os.path.split(path) path分割成目录和文件名二元组返回 ***
  6. print(os.path.split(r"H:\Python代码文件\python24期\测试test\test.py"))
  7. 结果:
  8. ('H:\\Python代码文件\\python24期\\测试test', 'test.py')
  9. os.path.dirname(path) 返回path的目录。其实就是os.path.split(path)的第一个元素 **
  10. print(os.path.dirname(r"H:\Python代码文件\python24期\测试test\test.py"))
  11. 结果:
  12. H:\Python代码文件\python24\测test
  13. os.path.basename(path) 返回path最后的文件名。如果path以/或\结尾,那么就会返回空值,即os.path.split(path)的第二个元素。 **
  14. print(os.path.basename(r"H:\Python代码文件\python24期\测试test\test.py"))
  15. 结果:
  16. test.py
  17. os.path.exists(path) 如果path存在,返回True;如果path不存在,返回False ***
  18. os.path.isabs(path) 如果path是绝对路径,返回True **
  19. os.path.isfile(path) 如果path是一个存在的文件,返回True。否则返回False ***
  20. os.path.isdir(path) 如果path是一个存在的路径,则返回True。否则返回False ***
  21. os.path.join(path1[, path2[, ...]]) 将多个路径组合后返回,第一个绝对路径之前的参数将被忽略 *****
  22. print(os.path.join('H:\Python代码文件\python24期\测试test',"abc"))
  23. print(os.path.join("bbc",'H:\Python代码文件\python24期\测试test',"abc"))
  24. 结果:
  25. H:\Python代码文件\python24\测test\abc
  26. H:\Python代码文件\python24\测test\abc
  27. os.path.getctime(path) 返回path所指向的文件或者目录的最后访问时间
  28. os.path.getmtime(path) 返回path所指向的文件或者目录的最后访问时间
  29. os.path.getatime(path) 返回path所指向的文件或者目录的最后修改时间 **
  30. os.path.getsize(path) 返回path的大小(实际不准) ***

2.5操作系统相关(了解)

  1. os.sep 输出操作系统特定的路径分隔符,win下为"\\",Linux下为"/" *
  2. os.linesep 输出当前平台使用的行终止符,win下为"\r\n",Linux下为"\n"
  3. os.pathsep 输出用于分割文件路径的字符串 win下为;,Linux下为: *
  4. os.name 输出字符串指示当前使用平台。win->'nt'; Linux->'posix' *
  5. # 和执行系统命令相关
  6. os.system("bash command") 运行shell命令,直接显示 **
  7. os.popen("bash command).read() 运行shell命令,获取执行结果 **
  8. os.environ 获取系统环境变量 **

os.system方法是os模块最基础的方法,其它的方法一般在该方法基础上封装完成。

os的system原理

  • system函数可以将字符串转化成命令在服务器上运行;其原理是每一条system函数执行时,其会创建一个子进程在系统上执行命令行,子进程的执行结果无法影响主进程;
  • 上述原理会导致当需要执行多条命令行的时候可能得不到预期的结果;
  1. import os
  2. os.system('cd /usr/local')
  3. os.mkdir('aaa.txt)
  • 上述程序运行后会发现txt文件并没有创建在/usr/local文件夹下,而是在当前的目录下;

使用system执行多条命令

  • 为了保证system执行多条命令可以成功,多条命令需要在同一个子进程中运行;
  1. import os
  2. os.system('cd /usr/local && mkdir aaa.txt')
  3. # 或者
  4. os.system('cd /usr/local ; mkdir aaa.txt')

2.6 os.stat('path/filename') 获取文件/目录信息 的结构说明(了解)

  1. print(os.stat(r'H:\Python代码文件\python24期\测试test\test.py') ) #获取文件/目录信息 **
  2. 结果:
  3. os.stat_result(st_mode=33206, st_ino=18014398509485740, st_dev=2290708642, st_nlink=1, st_uid=0, st_gid=0, st_size=35882, st_atime=1563693354, st_mtime=1563693354, st_ctime=1563693354)
  1. stat 结构:
  2. st_mode: inode 保护模式
  3. st_ino: inode 节点号。
  4. st_dev: inode 驻留的设备。
  5. st_nlink: inode 的链接数。
  6. st_uid: 所有者的用户ID
  7. st_gid: 所有者的组ID
  8. st_size: 普通文件以字节为单位的大小;包含等待某些特殊文件的数据。
  9. st_atime: 上次访问的时间。
  10. st_mtime: 最后一次修改的时间。
  11. st_ctime: 由操作系统报告的"ctime"。在某些系统上(如Unix)是最新的元数据更改的时间,在其它系统上(如Windows)是创建时间(详细信息参见平台的文档)。

3 sys

重要:sys.path: 获取指定模块搜索路径的字符串列表,可以将写好的模块放在得到的某个路径下,就可以在程序中import时正确找到。

  1. import sys
  2. print(sys.argv) #命令行参数List,第一个元素是程序本身路径,当前文件运行,执行脚本的时候可以携带参数,用处:可以远程登录输入用户名和密码
  3. 结果:
  4. ['H:/Python代码文件/python24期/测试test/test5.py']
  5. # sys.exit(n) #退出程序,正常退出时exit(0),错误退出sys.exit(1)
  6. # sys.version #获取Python解释程序的版本信息
  7. # sys.path #返回模块的搜索路径,初始化时使用PYTHONPATH环境变量的值 *****
  8. # sys.platform #返回操作系统平台名称 #win32

4 hashlib

hashlib被称为摘要算法:

用途:

1.加密

2.文件一致性校验

加密校验使用,其工作原理:它通过一个函数,把任意长度的数据按照一定规则转换为一个固定长度的数据串(通常用16进制的字符串表示).

使用的原因:

我们在一个文件中存储用户的用户名和密码是不会是明文的,一般我们存储密码时都是以密文存储,比如:

123456加密后就是4665ace0eb5d3d6a2822a7c455587e47

章超印|4665ace0eb5d3d6a2822a7c455587e47

即使别人窃取你的密码文件,他也不会轻易的破解出密码.

hashlib的特征以及使用要点:

  1. bytes类型数据 ---> 通过hashlib算法 ---> 固定长度的字符串
  2. 不同的bytes类型数据转化成的结果一定不同。
  3. 相同的bytes类型数据转化成的结果一定相同。
  4. 此转化过程不可逆。

普通加密:

(批注:其实MD5算法相同的bytes数据转化的结果可以不相同,不相同的bytes数据转化的结果也可以相同,但是MD5的安全性还是很高)

  1. 我们以常见的摘要算法MD5为例,计算出一个字符串的MD5值:
  2. import hashlib
  3. md5 = hashlib.md5()
  4. md5.update('123456'.encode('utf-8')) # 必须是bytes类型才能够进行加密
  5. print(md5.hexdigest())
  6. # 计算结果如下:
  7. 'e10adc3949ba59abbe56e057f20f883e'
  8. # 验证:相同的bytes数据转化的结果一定相同
  9. import hashlib
  10. md5 = hashlib.md5()
  11. md5.update('123456'.encode('utf-8'))
  12. print(md5.hexdigest())
  13. # 计算结果如下:
  14. 'e10adc3949ba59abbe56e057f20f883e'
  15. # 验证:不相同的bytes数据转化的结果一定不相同
  16. import hashlib
  17. md5 = hashlib.md5()
  18. md5.update('12345'.encode('utf-8'))
  19. print(md5.hexdigest())
  20. # 计算结果如下:
  21. '827ccb0eea8a706c4c34a16891f84e7b'

上面就是普通的md5加密,非常简单,几行代码就可以了,但是这种加密级别是最低的,相对来说不很安全。虽然说hashlib加密是不可逆的加密方式,但也是可以破解的,那么他是如何做的呢?你看网上好多MD5解密软件,他们使用撞库的方式。他们会把常用的一些密码比如:123456,111111,以及他们的md5的值做成对应关系,类似于字典,

dic = {'e10adc3949ba59abbe56e057f20f883e': 123456}

循环他们那定义的字典中的键和咱们生成的密文进行比较,比较成功后通过你的密文获取对应的密码。

所以针对刚才说的情况,我们有更安全的加密方式:加盐

固定的盐

  1. ret = hashlib.md5('章超印最帅'.encode('utf-8')) # 章超印最帅就是固定的盐
  2. ret.update('a'.encode('utf-8'))
  3. print(ret.hexdigest())

动态的盐

  1. username = '章超印最帅'
  2. ret = hashlib.md5(username[::2].encode('utf-8')) # 针对于每个账户,每个账户的盐都不一样
  3. ret.update('a'.encode('utf-8'))
  4. print(ret.hexdigest())

hahslib模块是一个算法集合,他里面包含很多种加密算法,刚才我们说的MD5算法是比较常用的一种加密算法,一般的企业用MD5就够用了。但是对安全要求比较高的企业,比如金融行业,MD5加密的方式就不够了,得需要加密方式更高的,比如sha系列,sha1,sha224,sha512等等,数字越大,加密的方法越复杂,安全性越高,但是效率就会越慢。

  1. ret = hashlib.sha1()
  2. ret.update('guobaoyuan'.encode('utf-8'))
  3. print(ret.hexdigest())
  4. #也可加盐
  5. ret = hashlib.sha384(b'asfdsa')
  6. ret.update('guobaoyuan'.encode('utf-8'))
  7. print(ret.hexdigest())
  8. # 也可以加动态的盐
  9. ret = hashlib.sha384(b'asfdsa'[::2])
  10. ret.update('guobaoyuan'.encode('utf-8'))
  11. print(ret.hexdigest())

不过一般我们用到MD5加密就可以了。

将文件校验写在一个函数中

low版文件校验:

  1. def func(file):
  2. with open(file,mode='rb') as f1:
  3. ret = hashlib.md5()
  4. ret.update(f1.read())
  5. return ret.hexdigest()
  6. print(func('hashlib_file1'))

这样就可以计算此文件的MD5值,从而进行文件校验。但是这样写有一个问题,有什么问题?如果文件过大,全部读取出来直接就会撑爆内存的,所以我们要分段读取,那么分段读取怎么做呢?

hashlib还可以这样玩:

  1. import hashlib
  2. # 直接 update
  3. md5obj = hashlib.md5()
  4. md5obj.update('宝元 is a old driver'.encode('utf-8'))
  5. print(md5obj.hexdigest()) # da525c66739e6baa8729332f8bae8e0f
  6. # 分段update
  7. md5obj = hashlib.md5()
  8. md5obj.update('宝元 '.encode('utf-8'))
  9. md5obj.update('is '.encode('utf-8'))
  10. md5obj.update('a '.encode('utf-8'))
  11. md5obj.update('old '.encode('utf-8'))
  12. md5obj.update('driver'.encode('utf-8'))
  13. print(md5obj.hexdigest()) # da525c66739e6baa8729332f8bae8e0f
  14. # 结果相同

我们现在知道可以进行分段update后,我们就可以迭代的获取文件中的内容,现在来做一个高大上版文件校验

高大上版文件校验

校验Pyhton解释器的Md5值是否相同

  1. import hashlib
  2. def file_check(file_path):
  3. with open(file_path,mode='rb') as f1:
  4. md5 = hashlib.md5()
  5. while 1:
  6. content = f1.read(1024)
  7. if content:
  8. md5.update(content)
  9. else:
  10. return md5.hexdigest()
  11. print(file_check('python-3.6.6-amd64.exe'))

上图来自于宝哥(感谢宝哥)

5 collections

一. collections模块

在内置数据类型(dict、list、set、tuple)的基础上,collections模块还提供了几个额外的数据类型:Counter、deque、defaultdict、namedtuple和OrderedDict等。

1.namedtuple: 生成可以使用名字来访问元素内容的tuple

2.deque: 双端队列,可以快速的从另外一侧追加和推出对象

3.Counter: 计数器,主要用来计数

4.OrderedDict: 有序字典

5.defaultdict: 带有默认值的字典

namedtuple

我们知道tuple可以表示不变数据,例如,一个点的二维坐标就可以表示成:

  1. p = (1, 2)

但是,看到(1, 2),很难看出这个tuple是用来表示一个坐标的。

这时,namedtuple就派上了用场:

  1. from collections import namedtuple
  2. Point = namedtuple('Point', ['x', 'y'])
  3. p = Point(1, 2)
  4. print(p)

结果:Point(x=1, y=2)

名字后面不管跟列表还是元组,还是集合,最终都变成了元组

类似的,如果要用坐标和半径表示一个圆,也可以用namedtuple定义:

  1. namedtuple('名称', [属性list]): # [属性list],(属性tuple),{属性set}
  2. Circle = namedtuple('Circle', ['x', 'y', 'r'])

deque

使用list存储数据时,按索引访问元素很快,但是插入和删除元素就很慢了,因为list是线性存储,数据量大的时候,插入和删除效率很低。

deque是为了高效实现插入和删除操作的双向列表,适合用于队列和栈:

  1. from collections import deque
  2. q = deque(['a', 'b', 'c']) #里面不管跟列表还是元组,还是集合,最终都变成了列表
  3. #q = deque(('a', 'b', 'c')) #结果都一样
  4. #q = deque({'a', 'b', 'c'}) #结果都一样
  5. q.append('x')
  6. q.appendleft('y')
  7. q
  8. deque(['y', 'a', 'b', 'c', 'x'])

deque除了实现list的append()和pop()外,还支持appendleft()和popleft(),这样就可以非常高效地往头部添加或删除元素。

里面不管跟列表还是元组,还是集合,最终都变成了列表

OrderedDict

使用dict时,Key是无序的。在对dict做迭代时,我们无法确定Key的顺序。

如果要保持Key的顺序,可以用OrderedDict:

  1. from collections import OrderedDict
  2. d = dict([('a', 1), ('b', 2), ('c', 3)]) # 另一种定义字典的方式
  3. print(d)
  4. # 结果:
  5. {'a': 1, 'c': 3, 'b': 2}
  6. od = OrderedDict([('a', 1), ('b', 2), ('c', 3)]) #里面不管跟列表还是元组,还是集合,只要只是两个值,最终都变成了字典
  7. #od = OrderedDict([['a', 1], ('b', 2), {'c', 3}])
  8. print(od)
  9. # 结果:
  10. OrderedDict([('a', 1), ('b', 2), ('c', 3)])

里面不管跟列表还是元组,还是集合,只要保证只有两个值,最终都变成了字典

注意,OrderedDict的Key会按照插入的顺序排列,不是Key本身排序:

  1. >>> od = OrderedDict()
  2. >>> od['z'] = 1
  3. >>> od['y'] = 2
  4. >>> od['x'] = 3
  5. >>> od.keys() # 按照插入的Key的顺序返回
  6. ['z', 'y', 'x']

defaultdict

有如下值集合 [11,22,33,44,55,66,77,88,99,90...],将所有大于 66 的值保存至字典的第一个key中,将小于 66 的值保存至第二个key的值中。

即: {'k1': 大于66 , 'k2': 小于66}

  1. li = [11,22,33,44,55,77,88,99,90]
  2. result = {}
  3. for row in li:
  4. if row > 66:
  5. if 'key1' not in result:
  6. result['key1'] = []
  7. result['key1'].append(row)
  8. else:
  9. if 'key2' not in result:
  10. result['key2'] = []
  11. result['key2'].append(row)
  12. print(result)
  13. from collections import defaultdict
  14. values = [11, 22, 33,44,55,66,77,88,99,90]
  15. my_dict = defaultdict(list)
  16. for value in values:
  17. if value>66:
  18. my_dict['k1'].append(value)
  19. else:
  20. my_dict['k2'].append(value)

使用dict时,如果引用的Key不存在,就会抛出KeyError。如果希望key不存在时,返回一个默认值,就可以用defaultdict:

  1. from collections import defaultdict
  2. dd = defaultdict(lambda: "")
  3. dd['key1'] = 'abc'
  4. # key1存在
  5. print(dd['key1']) # key1存在,就返回对应的值.
  6. dd['key2'] # key2不存在,返回你设定的默认值""空字符串
  7. print(dd['key2'])

Counter (有点用的)

Counter类的目的是用来跟踪值出现的次数。它是一个无序的容器类型,以字典的键值对形式存储,其中元素作为key,其计数作为value。计数值可以是任意的Interger(包括0和负数)。Counter类和其他语言的bags或multisets很相似。

  1. c = Counter('abcdeabcdabcaba')
  2. print c
  3. 输出:Counter({'a': 5, 'b': 4, 'c': 3, 'd': 2, 'e': 1})
  4. c = Counter([1,2,3,4,12,3,4,3,2,2])
  5. print(c)
  6. c = Counter({1,2,3,4,12,3,4,3,2,2}) #集合天然去重
  7. print(c)
  8. 结果:Counter({1: 1, 2: 1, 3: 1, 4: 1, 12: 1})

百万年薪python之路 -- 模块二的更多相关文章

  1. 百万年薪python之路 -- 模块

    1.自定义模块 1.1.1 模块是什么? 模块就是文件,存放一堆常用的函数和变量的程序文件(.py)文件 1.1.2 为什么要使用模块? 1.避免写重复代码,从文件级别组织程序,更方便管理 2.可以多 ...

  2. 百万年薪python之路 -- 模块三

    logging 日志模块 loggin模块参数 灵活配置日志级别,日志格式,输出位置: import logging logging.basicConfig(level=logging.DEBUG, ...

  3. 百万年薪python之路 -- MySQL数据库之 Navicat工具和pymysql模块

    一. IDE工具介绍(Navicat) 生产环境还是推荐使用mysql命令行,但为了方便我们测试,可以使用IDE工具,我们使用Navicat工具,这个工具本质上就是一个socket客户端,可视化的连接 ...

  4. 百万年薪python之路 -- re模块

    re模块 re模块是python用来描述正则表达式的一个模块. 正则表达式本身也和python没有什么关系,就是匹配字符串内容的一种规则. 官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先 ...

  5. 百万年薪python之路 -- 并发编程之 多线程 二

    1. 死锁现象与递归锁 进程也有死锁与递归锁,进程的死锁和递归锁与线程的死锁递归锁同理. 所谓死锁: 是指两个或两个以上的进程或线程在执行过程中,因为争夺资源而造成的一种互相等待的现象,在无外力的作用 ...

  6. 百万年薪python之路 -- 并发编程之 多进程二

    1. 僵尸进程和孤儿进程 基于unix的环境(linux,macOS) 主进程需要等待子进程结束之后,主进程才结束 主进程时刻检测子进程的运行状态,当子进程结束之后,一段时间之内,将子进程进行回收. ...

  7. 百万年薪python之路 -- socket()模块的用法

    socket()模块的用法: import socket socket.socket(socket_family,socket_type,protocal=0) socket_family 可以是 A ...

  8. 百万年薪python之路 -- MySQL数据库之 MySQL行(记录)的操作(二) -- 多表查询

    MySQL行(记录)的操作(二) -- 多表查询 数据的准备 #建表 create table department( id int, name varchar(20) ); create table ...

  9. 百万年薪python之路 -- 内置函数二 -- 最常用的内置函数

    1.内置函数 1.1 匿名函数 匿名函数,顾名思义就是没有名字的函数(其实是有名字的,就叫lambda),那么什么函数没有名字呢?这个就是我们以后面试或者工作中经常用匿名函数 lambda,也叫一句话 ...

随机推荐

  1. [LeetCode]singleNumber

    题目:singleNumber Given an array of integers, every element appears twice except for one. Find that si ...

  2. 小白专场-FileTransfer-c语言实现

    目录 一.集合的简化表示 二.题意理解 三.程序框架搭建 3.1 Input_connection 3.2 Check_connection 3.3 Check_network 四.pta测试 五.按 ...

  3. 【数据结构与算法】--JavaScript 链表

    一.介绍 JavaScript 原生提供了数组类型,但是却没有链表,虽然平常的业务开发中,数组是可以满足基本需求,但是链表在大数据集操作等特定的场景下明显具有优势,那为何 JavaScript 不提供 ...

  4. Scrapy项目 - 数据简析 - 实现斗鱼直播网站信息爬取的爬虫设计

    一.数据分析截图(weka数据分析截图 2-3个图,作业文字描述) 本次将所爬取的数据信息,如:房间数,直播类别和人气,导入Weka 3.7工具进行数据分析.有关本次的数据分析详情详见下图所示:   ...

  5. 阿里云搭建nginx + uWSGI 实现 django 项目

    系统版本 CentOS/7 64位 1.安装使用python3 创建python3目录 sudo mkdir /usr/local/python3 进入python3目录 cd /usr/local/ ...

  6. 学 Java 网络爬虫,需要哪些基础知识?

    说起网络爬虫,大家想起的估计都是 Python ,诚然爬虫已经是 Python 的代名词之一,相比 Java 来说就要逊色不少.有不少人都不知道 Java 可以做网络爬虫,其实 Java 也能做网络爬 ...

  7. Angular 内嵌视图、宿主视图

    解析视图: 内嵌视图 - 连接到模板的嵌入视图,在组件模板元素中添加模板(DOM元素.DOM元素组) 宿主视图 - 连接到组件的嵌入视图,在组件元素中添加别的组件 使用类说明: ElementRef ...

  8. Spring MVC学习 ( RESTful)

    是一套规则,不同的系统之间(Vue java Python C#  PHP)具体四种不同类型的HTTP 请求分别表示四种基本操作(CRUD) GET :查询(R) POST:添加(C) PUT:修改( ...

  9. Spring5源码解析3-refresh方法初探

    接上回分析完register(annotatedClasses);后,现在来看一下refresh();方法. // new AnnotationConfigApplicationContext(App ...

  10. 面试官:你有m个鸡蛋,如何用最少的次数测出鸡蛋会在哪一层碎?

    假设你面前有一栋n层的大楼和m个鸡蛋,假设将鸡蛋从f层或更高的地方放扔下去,鸡蛋才会碎,否则就不会.你需要设计一种策略来确定f的值,求最坏情况下扔鸡蛋次数的最小值. leetcode原题链接 乍一看这 ...