sklearn中的Pipeline

　　在将sklearn中的模型持久化时，使用sklearn.pipeline.Pipeline(steps, memory=None)将各个步骤串联起来可以很方便地保存模型。

　　例如，首先对数据进行了PCA降维，然后使用logistic regression进行分类，如果不使用pipeline，那么我们将分别保存两部分内容，一部分是PCA模型，一部分是logistic regression模型，稍微有点不方便。（当然，这么做也完全可以，使用Pipeline只是提供个方便罢了）

1.Pipeline中的steps

　　Pipeline的最后一步是一个“estimator”（sklearn中实现的各种机器学习算法实例，或者实现了estimator必须包含的方法的自定义类实例），之前的每一步都是“transformer”（必须实现fit和transform方法，比如MinMaxScaler、PCA、one-hot）。在Pipeline调用fit方法时，Pipeline中的每一步依次进行fit操作。

 import numpy as np

 from sklearn import linear_model, decomposition, datasets

 from sklearn.pipeline import Pipeline

 from sklearn.model_selection import GridSearchCV

 from sklearn.metrics import accuracy_score

 from sklearn.externals import joblib

 logistic = linear_model.LogisticRegression()

 pca = decomposition.PCA()

 pipe = Pipeline(steps=[('pca', pca), ('logistic', logistic)])

 digits = datasets.load_digits()

 X_digits = digits.data

 y_digits = digits.target

 # Parameters of pipelines can be set using ‘__’ separated parameter names:

 params = {

     'pca__n_components': [20, 40, 64],

     'logistic__C': np.logspace(-4, 4, 3),

 }

 estimator = GridSearchCV(pipe, params)

 estimator.fit(X_digits, y_digits)

 # When "estimator" predicts, actually "estimator.best_estimator_" is predicting.

 print(type(estimator.best_estimator_))

 y_pred = estimator.predict(X_digits)

 print(accuracy_score(y_true=y_digits, y_pred=y_pred))

 # Save model

 joblib.dump(estimator, 'models/pca_LR.pkl')

2.Pipeline中的memory参数

　　默认为None，当需要保存Pipeline中间的“transformer”时，才需要用到memory参数。

3.参考文献

　　Pipelining: chaining a PCA and a logistic regression

sklearn中的Pipeline的更多相关文章

sklearn中的pipeline实际应用
前面提到,应用sklearn中的pipeline机制的高效性:本文重点讨论pipeline与网格搜索在机器学习实践中的结合运用: 结合管道和网格搜索以调整预处理步骤以及模型参数一般地,sklearn ...
sklearn 中的 Pipeline 机制和FeatureUnion
一.pipeline的用法 pipeline可以用于把多个estimators级联成一个estimator,这么做的原因是考虑了数据处理过程中一系列前后相继的固定流程,比如feature selec ...
sklearn 中的 Pipeline 机制
转载自:https://blog.csdn.net/lanchunhui/article/details/50521648 from sklearn.pipeline import Pipeline ...
sklearn中的pipeline的创建与访问
前期博文提到管道(pipeline)在机器学习实践中的重要性以及必要性,本文则递进一步,探讨实际操作中管道的创建与访问. 已经了解到,管道本质上是一定数量的估计器连接而成的数据处理流,所以成功创建管道 ...
【笔记】多项式回归的思想以及在sklearn中使用多项式回归和pipeline
多项式回归以及在sklearn中使用多项式回归和pipeline 多项式回归线性回归法有一个很大的局限性,就是假设数据背后是存在线性关系的,但是实际上,具有线性关系的数据集是相对来说比较少的,更多时 ...
sklearn中的交叉验证（Cross-Validation）
这个repo 用来记录一些python技巧.书籍.学习链接等,欢迎stargithub地址sklearn是利用python进行机器学习中一个非常全面和好用的第三方库,用过的都说好.今天主要记录一下sk ...
sklearn中的投票法
投票法(voting)是集成学习里面针对分类问题的一种结合策略.基本思想是选择所有机器学习算法当中输出最多的那个类. 分类的机器学习算法输出有两种类型:一种是直接输出类标签,另外一种是输出类概率,使用 ...
（数据科学学习手札25）sklearn中的特征选择相关功能
一.简介在现实的机器学习任务中,自变量往往数量众多,且类型可能由连续型(continuou)和离散型(discrete)混杂组成,因此出于节约计算成本.精简模型.增强模型的泛化性能等角度考虑,我们常 ...
sklearn中的多项式回归算法
sklearn中的多项式回归算法 1.多项式回归法多项式回归的思路和线性回归的思路以及优化算法是一致的,它是在线性回归的基础上在原来的数据集维度特征上增加一些另外的多项式特征,使得原始数据集的维度增加 ...

随机推荐

Android 手势检测实战打造支持缩放平移的图片预览效果（下）
转载请标明出处:http://blog.csdn.net/lmj623565791/article/details/39480503,本文出自:[张鸿洋的博客] 上一篇已经带大家实现了自由的放大缩小图 ...
python已安装了一个包，但是导入包中的模块时报错没有这个包
执行import sys; print(sys.path)查看python搜索路径,确保自己的模块在python搜索路径中 python的搜索路径与包(package) python的搜索路径其实是一 ...
C# 操作Word文本框——插入表格/读取表格/删除表格
在文本框中,我们可以操作很多元素,如文本.图片.表格等,在本篇文章中将着重介绍如何插入表格到文本框,插入的表格我们可以对表格进行格式化操作来丰富表格内容.此外,对于文本框中的表格内容,我们也可以根据需 ...
2个byte类型数据相加（转型问题的分析）
转自https://blog.csdn.net/alinshen/article/details/53571857 今天看到网上有网友问到关于final修饰的面试题目,题目如下: <span s ...
[SCOI2005]栅栏二分+dfs
这个题真的是太nb了,各种骚二分答案,肯定要减最小的mid个,从大往小搜每一个木板,从大往小枚举所用的木材当当前木材比最短的木板还短,就扔到垃圾堆里,并记录waste,当 waste+sum> ...
linux清除全屏快捷键(Ctrl+L)
Linux用户基本上都习惯使用clear命令或Ctrl+L组合快捷键来清空终端屏幕.这样做其实并没有真正地清空屏幕,但当用鼠标向上滚时,你仍然能看到之前的命令操作留下来的输出.
linux系统光盘开机自动挂载-配置本地yum源
一.光盘开机自动挂载 1.修改配置文件执行命令 :vi /etc/fstab 添加/dev/cdrom /mnt iso9660 ...
Windows Ubuntu Bash申请免费通配符证书(Let's Encrypt)并绑定IIS
什么是 Let’s Encrypt? 部署 HTTPS 网站的时候需要证书,证书由 CA 机构签发,大部分传统 CA 机构签发证书是需要收费的,这不利于推动 HTTPS 协议的使用. Let’s En ...
ORM 开发环境之利器：MVC 中间件 FreeSql.AdminLTE
前言这是一篇纯技术干货的分享文章,FreeSql 已经基本完成 .NETCore 最方便的 ORM 使命,我们正在筹备生态的建立,比如 ABP 中如何使用 FreeSql 的实现,需要各种各样的扩展 ...
U盘制作微pe工具箱（实战）
分享人:广州华软浩言前言相信大家平时生活中还是工作上使用电脑的时间还是比较多的,有时候电脑出现故障,比如系统文件损坏,没办法正常开机,或者是开机密码忘了,想要重装系统等,下面我推荐一个U盘启动项 ...