模型持久化（模型保存与加载）是机器学习完成的最后一步。
因为，在实际情况中，训练一个模型可能会非常耗时，如果每次需要使用模型时都要重新训练，这无疑会浪费大量的计算资源和时间。

通过将训练好的模型持久化到磁盘，我们可以在需要使用模型时直接从磁盘加载到内存，而无需重新训练。这样不仅可以节省时间，还可以提高模型的使用效率。

本篇介绍scikit-learn中几种常用的模型持久化方法。

1. 训练模型

首先，训练一个模型，这里用scikit-learn自带的手写数字数据集作为样本。

import matplotlib.pyplot as plt

from sklearn import datasets

# 加载手写数据集

data = datasets.load_digits()

# 调整数据格式

n_samples = len(data.images)

X = data.images.reshape((n_samples, -1))

y = data.target

# 用支持向量机训练模型

from sklearn.svm import SVC

# 定义

reg = SVC()

# 训练模型

reg.fit(X, y)

最后的得到的 reg 就是我们训练之后的模型，使用这个模型，就可以预测一些手写数字图片。

但是这个 reg 是代码中的一个变量，如果不能保存下来，那么，每次需要使用的时候，
还要重新执行一次上面的模型训练代码，样本数据量大的话，每次重复训练会浪费大量时间和计算资源。

所以，要将上面的 reg 模型保存下来，下次使用的时候，直接加载，不用重新训练。

2. 模型持久化

2.1. pickle 序列化

pickle格式是python中常用的序列化方式，它通过将python对象及其所拥有的层次结构转化为一个字节流来实现序列化。

将上面的模型保存到磁盘文件model.pkl中。

import pickle

with open("./model.pkl", "wb") as f:

    pickle.dump(reg, f)

需要使用模型时，从磁盘加载的方式：

with open("./model.pkl", "rb") as f:

    reg_pkl = pickle.load(f)

验证加载之后的模型reg_pkl是否可以正常使用。

y_pred = reg_pkl.predict(X)

from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

cm = confusion_matrix(y, y_pred)

g = ConfusionMatrixDisplay(confusion_matrix=cm)

g.plot()

plt.show()

从混淆矩阵来看，模型可以正常加载和使用。
关于混淆矩阵具体内容，可以参考：【scikit-learn基础】--『分类模型评估』之评估报告

2.2. joblib 序列化

相比于pickle，保存机器学习模型时，更推荐使用joblib。
因为joblib针对大数据进行了优化，使其在处理大型数据集时性能更佳。

序列化的方式也很简单：

import joblib

joblib.dump(reg, "model.jlib")

从磁盘加载模型并验证：

reg_jlib = joblib.load("model.jlib")

y_pred = reg_jlib.predict(X)

from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

cm = confusion_matrix(y, y_pred)

g = ConfusionMatrixDisplay(confusion_matrix=cm)

g.plot()

plt.show()

2.3. skops 格式

skops是比较新的一种格式，它是专门为了共享基于 scikit-learn 的模型而开发的。
目前还在积极的开发中，github上的地址是：github-skops。

相比于pickle和joblib，它提供了更加安全的序列化格式，
但使用上和它们差别不大。

import skops.io as sio

# 保存到文件 model.sio

sio.dump(reg, "model.sio")

从文件中读取模型并验证：

reg_sio = sio.load("model.sio")

y_pred = reg_jlib.predict(X)

from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

cm = confusion_matrix(y, y_pred)

g = ConfusionMatrixDisplay(confusion_matrix=cm)

g.plot()

plt.show()

3. 总结

在scikit-learn中，模型持久化是一个重要且实用的技术，它允许我们将训练好的模型保存到磁盘上，以便在不同的时间点或不同的环境中重新加载和使用。
通过模型持久化，我们能够避免每次需要使用时重新训练模型，从而节省大量的时间和计算资源。

本篇介绍的三种方法可以方便的序列化和反序列化模型对象，使其可以轻松地保存到磁盘上，并能够在需要时恢复出原始模型对象。

总而言之，模型持久化不仅使得我们能够在不同的运行会话之间重用模型，还方便了模型的共享和部署。

【scikit-learn基础】--模型持久化的更多相关文章

(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
tensorflow学习笔记——模型持久化的原理，将CKPT转为pb文件，使用pb模型预测
由题目就可以看出,本节内容分为三部分,第一部分就是如何将训练好的模型持久化,并学习模型持久化的原理,第二部分就是如何将CKPT转化为pb文件,第三部分就是如何使用pb模型进行预测. 一,模型持久化为 ...
[Tensorflow]模型持久化的原理，将CKPT转为pb文件，使用pb模型预测
文章目录 [Tensorflow]模型持久化的原理,将CKPT转为pb文件,使用pb模型预测一.模型持久化 1.持久化代码实现 convert_variables_to_constants固化模型结 ...
linux下bus、devices和platform的基础模型
转自:http://blog.chinaunix.net/uid-20672257-id-3147337.html 一.kobject的定义:kobject是Linux2.6引入的设备管理机制,在内核 ...
Query意图分析：记一次完整的机器学习过程（scikit learn library学习笔记）
所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质. 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图.假设现在有一个O2O领域的 ...
ThinkPHP 学习笔记 ( 三 ) 数据库操作之数据表模型和基础模型 ( Model )
//TP 恶补ing... 一.定义数据表模型 1.模型映射要测试数据库是否正常连接,最直接的办法就是在当前控制器中实例化数据表,然后使用 dump 函数输出,查看数据库的链接状态.代码: publ ...
Tensorflow 模型持久化saver及加载图结构
主要内容: 1. 直接保存,加载模型; (可以指定加载,保存的var_list) 2. 加载,保存指定变量的模型 3. slim加载模型使用 4. 加载模型图结构和参数等 tensorflow 恢复部 ...

随机推荐

Java之利用openCsv导出csv文件
当时导入的时候用的openCsv,那么导出的时候自然也是用这个,查了好多资料才找到解决方案,下面记录一下实现过程. 1.Controller层: /** * 导出csv文件 */ @RequestMa ...
基于AHB_BUS的eFlash控制器的微架构设计
eFlash微架构设计 1.回顾架构设计 2.Flash时序仿真 2.1 ahb_flashc项目目录 docs rtl sim tb model 2.2 docs 架构设计文档微架构设计文档集成 ...
Laravel - blade 基础语法和include的使用
 @section('footer') <div style="color:#fff"> @par ...
Mygin实现分组路由Group
本篇是Mygin第五篇目的实现路由分组为什么要分组分组控制(Group Control)是 Web 框架应该提供的基础功能之一,对同一模块功能的开发,应该有相同的前缀.或者对一部分第三方接口, ...
[转帖]是什么让 Redis“气急败坏”回击：13 年来，总有人想替 Redis 换套新架构
https://www.infoq.cn/article/AlF5NIhHdskayl0MTyQG 回击就代表输了?! 今年年中,一位前谷歌.前亚马逊的工程师推出了他创作的开源内存数据缓存系统 Dra ...
[转帖]TiUP Cluster 命令合集
https://docs.pingcap.com/zh/tidb/stable/tiup-component-cluster TiUP Cluster 是 TiUP 提供的使用 Golang 编写的集 ...
[转帖]configure: error: cannot guess build type；you must specify one
该问题一般出现在国产平台,从错误描述来看,意思是:无法猜测build类型,你必须指定一个. 解决办法: 1. 在系统/usr路径下搜索 config.guess 和 config.sub 这两个文件. ...
【转帖】50.设置HotSpot采用解释器还是JIT编译器(-Xint、-Xcomp、Xmixed以及-Server、-Client）
目录 1.设置HotSpot 1.设置HotSpot 1.设置采用解释器还是JIT编译器 -Xint: 完全采用解释器模式执行程序. -Xcomp: 完全采用即时编译器模式执行程序.如果即时编译出现问 ...
[转帖]ElasticSearch 最全详细使用教程
https://zhuanlan.zhihu.com/p/449555826?utm_source=weibo&utm_medium=social&utm_oi=27124941455 ...
[转帖]nginx的luajit安装luarocks并安装luafilesystem
nginx的luajit安装luarocks并安装luafilesystem by admin on 2015-07-11 08:05:23 in , 69次标题有点绕口.我尽量把关键词都贴进去.之 ...

【scikit-learn基础】--模型持久化