1 前言

在“通过简单示例来理解什么是机器学习”这篇文章里提到了pickle库的使用，本文来做进一步的阐述。

通过简单示例来理解什么是机器学习

pickle是python语言的一个标准模块，安装python后已包含pickle库，不需要单独再安装。
pickle模块实现了基本的数据序列化和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去，永久存储；通过pickle模块的反序列化操作，我们能够从文件中创建上一次程序保存的对象。
在官方的介绍中，序列化操作的英文描述有好几个单词，如”serializing”, “pickling”, “serialization”, “marshalling” 或者”flattening”等，它们都代表的是序列化的意思。相应的，反序列化操作的英文单词也有好多个，如”de-serializing”, “unpickling”, “deserailization”等。为了避免混淆，一般用”pickling”/“unpickling”, 或者”serialization”/“deserailization”。
pickle模块是以二进制的形式序列化后保存到文件中（保存文件的后缀为”.pkl”），不能直接打开进行预览。而python的另一个序列化标准模块json，则是human-readable的，可以直接打开查看（例如在notepad++中查看）。

pickle模块有两类主要的接口，即序列化和反序列化。
其中序列化操作包括：

pickle.dump()
Pickler(file, protocol).dump(obj)
反序列化操作包括：
pickle.load()
Unpickler(file).load()

2 序列化操作

2.1 序列化方法pickle.dump()

序列化的方法为 pickle.dump()，该方法的相关参数如下：
pickle.dump(obj, file, protocol=None,*,fix_imports=True)
该方法实现的是将序列化后的对象obj以二进制形式写入文件file中，进行保存。它的功能等同于 Pickler(file, protocol).dump(obj)。
关于参数file，有一点需要注意，必须是以二进制的形式进行操作（写入）。
参考前文的案例如下：

import pickle
with open('svm_model_iris.pkl', 'wb') as f:
    pickle.dump(svm_classifier, f)

file为’svm_model_iris.pkl’，并且以二进制的形式（’wb’）写入。

关于参数protocol，一共有5中不同的类型，即（0,1,2,3,4）。（0,1,2）对应的是python早期的版本，（3,4）则是在python3之后的版本。
此外，参数可选 pickle.HIGHEST_PROTOCOL和pickle.DEFAULT_PROTOCOL。当前，python3.5版本中，pickle.HIGHEST_PROTOCOL的值为4，pickle.DEFAULT_PROTOCOL的值为3。当protocol参数为负数时，表示选择的参数是pickle.HIGHEST_PROTOCOL。
关于参数protocol，官方的详细介绍如下：

2.2 序列化方法pickle.dumps()

pickle.dumps()方法的参数如下：
pickle.dumps(obj, protocol=None,*,fix_imports=True)
pickle.dumps()方法跟pickle.dump()方法的区别在于，pickle.dumps()方法不需要写入文件中，它是直接返回一个序列化的bytes对象。

2.3 序列化方法Pickler(file, protocol).dump(obj)

pickle模块提供了序列化的面向对象的类方法，即 class pickle.Pickler(file, protocol=None,*,fix_imports=True),Pickler类有dump()方法。
Pickler(file, protocol).dump(obj) 实现的功能跟 pickle.dump() 是一样的。
关于Pickler类的其他method，请参考官方API。

插播一条硬广：技术文章转发太多，本文来自微信公众号：“Python数据之道”（ID：PyDataRoad）。

3 反序列化操作

3.1 反序列化方法pickle.load()

序列化的方法为 pickle.load()，该方法的相关参数如下：
pickle.load(file, *,fix_imports=True, encoding=”ASCII”. errors=”strict”)
该方法实现的是将序列化的对象从文件file中读取出来。它的功能等同于 Unpickler(file).load()。
关于参数file，有一点需要注意，必须是以二进制的形式进行操作（读取）。
参考前文的案例如下：

import pickle
with open('svm_model_iris.pkl', 'rb') as f:
    model = pickle.load(f)

file为’svm_model_iris.pkl’，并且以二进制的形式（’rb’）读取。

读取的时候，参数protocol是自动选择的，load()方法中没有这个参数。

3.2 反序列化方法pickle.loads()

pickle.loads()方法的参数如下：
pickle.loads(bytes_object, *,fix_imports=True, encoding=”ASCII”. errors=”strict”)
pickle.loads()方法跟pickle.load()方法的区别在于，pickle.loads()方法是直接从bytes对象中读取序列化的信息，而非从文件中读取。

3.3 反序列化方法Unpickler(file).load()

pickle模块提供了反序列化的面向对象的类方法，即 class pickle.Unpickler(file, *,fix_imports=True, encoding="ASCII". errors="strict"),Pickler类有load()方法。
Unpickler(file).load() 实现的功能跟 pickle.load() 是一样的。
关于Unpickler类的其他method，请参考官方API。

4 那些类型可以进行序列化和反序列化操作

官方文档是这么介绍的，这里我就不进一步描述了。

写在后面

pickle模块还是比较实用的，当然，关于pickle模块，其实还有许多的信息可以去了解，想了解更多信息的童鞋，建议可以阅读下python官方的API文档（library文件）。

Python库：序列化和反序列化模块pickle介绍的更多相关文章

python的序列化和反序列化以及json
python 的序列化和反序列化用于内存之间的共享,包括服务器和客户端的共享,两个Python程序之间的共享,以及以字符串的形式存储到硬盘中. pyhton 的pickle 可以对Python的各种数 ...
Python开发之序列化与反序列化：pickle、json模块使用详解
1 引言在日常开发中,所有的对象都是存储在内存当中,尤其是像python这样的坚持一切接对象的高级程序设计语言,一旦关机,在写在内存中的数据都将不复存在.另一方面,存储在内存够中的对象由于编程语言. ...
python类库32[序列化和反序列化之pickle]
一 pickle pickle模块用来实现python对象的序列化和反序列化.通常地pickle将python对象序列化为二进制流或文件. python对象与文件之间的序列化和反序列化: pi ...
day5-python中的序列化与反序列化-json&pickle
一.概述玩过稍微大型一点的游戏的朋友都知道,很多游戏的存档功能使得我们可以方便地迅速进入上一次退出的状态(包括装备.等级.经验值等在内的一切运行时数据),那么在程序开发中也存在这样的需求:比较简单的 ...
python json序列化与反序列化操作
python json序列化与反序列化操作 # dumps() dict-->str 序列化 # loads() str---dict 反序列化 result1 = json.dumps({'a ...
Python—序列化和反序列化模块(json、pickle和shelve)
什么是序列化我们把对象(或者变量)从内存中变为可存储或者可传输的过程称为序列化.在python中为pickling,在其他语言中也被称之为serialization,marshalling,flat ...
python：序列化与反序列化（json、pickle、shelve）
本节内容前言 json模块 pickle模块 shelve模块总结一.前言 1. 现实需求每种编程语言都有各自的数据类型,其中面向对象的编程语言还允许开发者自定义数据类型(如:自定义类),Py ...
python 之序列化与反序列化、os模块
6.6 序列化与反序列化特殊的字符串 , 只有:int / str / list / dict 最外层必须是列表或字典,如果包含字符串,必须是双引号"". 序列化:将Python ...
python 数据序列化（json、pickle、shelve）
本来要查一下json系列化自定义对象的一个问题,然后发现这篇博客(https://www.cnblogs.com/yyds/p/6563608.html)很全面,感谢作者,关于python序列化的知识 ...

随机推荐

asp.net已流的方式下载文件
string filePath = context.Server.MapPath("~/" + uploadFolder+"/"+file_name);//路径 ...
SVN如何迁移到Git？
最近在使用华为软件开发云进行开发项目管理,目前华为软件开发云支持500M的免费项目空间,而且还可以在线编译和构建,不用担心开发环境和生产环境的不同,很好的体现了DevOps的开发理念. 之前一直是用s ...
Building Particle Filters and Particle MCMC in NIMBLE
This example shows how to construct and conduct inference on a state space model using particle filt ...
Weka算法介绍
RWeka (http://cran.r-project.org/web/packages/RWeka/index.html) : 1) 数据输入和输出 WOW():查看Weka函数的参数. Weka ...
设置Intellij IDEA 提示出未保存的*星号
IDEA实乃是java开发的神器,然而从eclipse或者MyEclipse转过来的开发每写完一行代码总是习惯的按下ctrl+s,然而IDEA代码编辑器的上方并没有提示未保存的*星号,提示星星,所以觉 ...
06.04 html
域名跟ip地址是绑定的看某个网站的ip地址可以ping网址知道ip地址最终访问的都是ip地址每个ip地址都对应了一个空间(一块区域要用来存储内容)网页访问的原理: 客户端电脑发动请求到服 ...
常用数组、字符串方法总结&获取元素、DOM操作
字符串的方法.返回值.是否改变原字符串:1 charAt() 方法可返回指定位置的字符. 不改变原始字符串 JavaScript并没有一种有别于字符串类型的字符数据类型,返回的字符是长度为 1 的字符 ...
最短路径Floyd算法【图文详解】
Floyd算法 1.定义概览 Floyd-Warshall算法(Floyd-Warshall algorithm)是解决任意两点间的最短路径的一种算法,可以正确处理有向图或负权的最短路径问题,同时也被 ...
ssh隧道
最近有需求使用ssh隧道,顺便研究了下,以下记录一下大概说明 ssh隧道顾名思义在可以通过ssh连接的server之间建立加密隧道,常用于突破网络限制常用三种端口转发模式:本地端口转发,远程端口转发 ...
cms基本概念（dedecms,phpcms）
1.什么是cms? cms是"Content Management System"的缩写,意为"内容管理系统". 内容管理系统是企业信息化建设和电子政务的新宠, ...

Python库：序列化和反序列化模块pickle介绍