机器学习——交叉验证，GridSearchCV，岭回归

0.交叉验证

　　交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。

　　交叉验证用在数据不是很充足的时候。比如在我日常项目里面，对于普通适中问题，如果数据样本量小于一万条，我们就会采用交叉验证来训练优化选择模型。如果样本大于一万条的话，我们一般随机的把数据分成三份，一份为训练集（Training Set），一份为验证集（Validation Set），最后一份为测试集（Test Set）。用训练集来训练模型，用验证集来评估模型预测的好坏和选择模型及其对应的参数。把最终得到的模型再用于测试集，最终决定使用哪个模型以及对应参数。

　　根据切分的方法不同，交叉验证分为下面三种：　　　

　　第一种是简单交叉验证，所谓的简单，是和其他交叉验证方法相对而言的。首先，我们随机的将样本数据分为两部分（比如： 70%的训练集，30%的测试集），然后用训练集来训练模型，在测试集上验证模型及参数。接着，我们再把样本打乱，重新选择训练集和测试集，继续训练数据和检验模型。最后我们选择损失函数评估最优的模型和参数。　

　　第二种是S折交叉验证（S-Folder Cross Validation）。和第一种方法不同，S折交叉验证会把样本数据随机的分成S份，每次随机的选择S-1份作为训练集，剩下的1份做测试集。当这一轮完成后，重新随机选择S-1份来训练数据。若干轮（小于S）之后，选择损失函数评估最优的模型和参数。

　　第三种是留一交叉验证（Leave-one-out Cross Validation），它是第二种情况的特例，此时S等于样本数N，这样对于N个样本，每次选择N-1个样本来训练数据，留一个样本来验证模型预测的好坏。此方法主要用于样本量非常少的情况，比如对于普通适中问题，N小于50时，我一般采用留一交叉验证。

1.模型调参利器GridSearchCV（网格搜索）

　　GridSearchCV能够通过给定的参数列表，自动的帮我们选择一个最优的参数，在数据集不大的情况下非常适合使用。函数的相关参数的含义如下：

　　　　GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, iid=True, refit=True, cv=None, verbose=0, pre_dispatch='2*n_jobs', error_score='raise', return_train_score=True)

Parameters：

　　estimator：所使用的分类器，或者pipeline

　　param_grid：值为字典或者列表，即需要最优化的参数的取值

　　scoring：准确度评价标准，默认None,这时需要使用score函数；或者如scoring='roc_auc'，根据所选模型不同，评价准则不同。字符串（函数名），或是可调用对象，需要其函数签名形如：scorer(estimator, X, y)；如果是None，则使用estimator的误差估计函数。

　　n_jobs：并行数，int：个数,-1：跟CPU核数一致, 1:默认值。

　　pre_dispatch：指定总共分发的并行任务数。当n_jobs大于1时，数据将在每个运行点进行复制，这可能导致OOM，而设置pre_dispatch参数，则可以预先划分总共的job数量，使数据最多被复制pre_dispatch次

　　iid：默认True,为True时，默认为各个样本fold概率分布一致，误差估计为所有样本之和，而非各个fold的平均。

　　cv：交叉验证参数，默认None，使用三折交叉验证。指定fold数量，默认为3，也可以是yield训练/测试数据的生成器。

　　refit：默认为True,程序将会以交叉验证训练集得到的最佳参数，重新对所有可用的训练集与开发集进行，作为最终用于性能评估的最佳模型参数。即在搜索参数结束后，用最佳参数结果再次fit一遍全部数据集。

　　verbose：日志冗长度，int：冗长度，0：不输出训练过程，1：偶尔输出，>1：对每个子模型都输出。

Attributes：
　　best_estimator_：效果最好的分类器

　　best_score_：成员提供优化过程期间观察到的最好的评分

　　best_params_：描述了已取得最佳结果的参数的组合

　　best_index_：对应于最佳候选参数设置的索引(cv_results_数组的索引)。

Methods：

　　decision_function:使用找到的参数最好的分类器调用decision_function。

　　fit(X, y=None, groups=None, **fit_params):训练

　　get_params(deep=True):获取这个估计器的参数。

　　predict(X):用找到的最佳参数调用预估器。(直接预测每个样本属于哪一个类别)

　　predict_log_proda(X):用找到的最佳参数调用预估器。（得到每个测试集样本在每一个类别的得分取log情况）

　　predict_proba(X):用找到的最佳参数调用预估器。（得到每个测试集样本在每一个类别的得分情况）

　　score(X, y=None)：返回给定数据上的得分，如果预估器已经选出最优的分类器。

　　transform(X):调用最优分类器进行对X的转换。

　　下面我们一岭回归为例，运用GridSearchCV进行调参工作：

 import numpy as np

 import matplotlib.pyplot as plt

 import pandas as pd

 from sklearn.model_selection import train_test_split

 from sklearn.linear_model import Lasso, Ridge

 from sklearn.model_selection import GridSearchCV

 if __name__ == "__main__":

     # pandas读入

     data = pd.read_csv('../data-set/Advertising.csv')

     x = data[['TV', 'Radio', 'Newspaper']]

     y = data['Sales']

     x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=1)

     #model = Lasso()

     model = Ridge()

     alpha_can = np.logspace(-3, 2, 10)

     lasso_model = GridSearchCV(model, param_grid={'alpha': alpha_can}, cv=5)

     lasso_model.fit(x, y)

     print('验证参数：\n', lasso_model.best_params_)

     y_hat = lasso_model.predict(np.array(x_test))

     mse = np.average((y_hat - np.array(y_test)) ** 2)  # Mean Squared Error

     rmse = np.sqrt(mse)  # Root Mean Squared Error

     print(mse, rmse)

     t = np.arange(len(x_test))

     plt.plot(t, y_test, 'r-', linewidth=2, label='Test')

     plt.plot(t, y_hat, 'g-', linewidth=2, label='Predict')

     plt.legend(loc='upper right')

     plt.grid()

     plt.show()

　　在上述的代码中，np.logspace(-3, 2, 10)为返回10^-3到10^2的长度为默认10的列表，作为参数的可选值，lasso_model = GridSearchCV(model, param_grid={'alpha': alpha_can}, cv=5)中，param_grid自动参数alpha的参数列表，cv表示使用5折交叉验证。

运行结果如下：

欢迎关注我的公众号，不定期更新机器学习原理教程！

机器学习——交叉验证，GridSearchCV，岭回归的更多相关文章

Numpy实现机器学习交叉验证的数据划分
Numpy实现K折交叉验证的数据划分本实例使用Numpy的数组切片语法,实现了K折交叉验证的数据划分背景:K折交叉验证为什么需要这个?在机器学习中,因为如下原因,使用K折交叉验证能更好评估模型效 ...
机器学习 - 案例 - 样本不均衡数据分析 - 信用卡诈骗 ( 标准化处理, 数据不均处理, 交叉验证, 评估, Recall值, 混淆矩阵, 阈值 )
案例背景银行评判用户的信用考量规避信用卡诈骗 ▒ 数据数据共有 31 个特征, 为了安全起见数据已经向了模糊化处理无法读出真实信息目标其中数据中的 class 特征标识为是否正常用户 (0 代表 ...
什么是机器学习的分类算法？【K-近邻算法(KNN)、交叉验证、朴素贝叶斯算法、决策树、随机森林】
1.K-近邻算法(KNN) 1.1 定义 (KNN,K-NearestNeighbor) 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类 ...
【机器学习】正则化的线性回归 —— 岭回归与Lasso回归
注:正则化是用来防止过拟合的方法.在最开始学习机器学习的课程时,只是觉得这个方法就像某种魔法一样非常神奇的改变了模型的参数.但是一直也无法对其基本原理有一个透彻.直观的理解.直到最近再次接触到这个概念 ...
机器学习基础：(Python)训练集测试集分割与交叉验证
在上一篇关于Python中的线性回归的文章之后,我想再写一篇关于训练测试分割和交叉验证的文章.在数据科学和数据分析领域中,这两个概念经常被用作防止或最小化过度拟合的工具.我会解释当使用统计模型时,通常 ...
GridSearchCV交叉验证
代码实现(基于逻辑回归算法): # -*- coding: utf-8 -*- """ Created on Sat Sep 1 11:54:48 2018 @autho ...
python机器学习sklearn 岭回归（Ridge、RidgeCV）
1.介绍 Ridge 回归通过对系数的大小施加惩罚来解决普通最小二乘法的一些问题. 岭系数最小化的是带罚项的残差平方和, 其中,α≥0α≥0 是控制系数收缩量的复杂性参数: αα 的值越大,收缩量 ...
机器学习之五正则化的线性回归-岭回归与Lasso回归
机器学习之五正则化的线性回归-岭回归与Lasso回归注:正则化是用来防止过拟合的方法.在最开始学习机器学习的课程时,只是觉得这个方法就像某种魔法一样非常神奇的改变了模型的参数.但是一直也无法对其基 ...
机器学习中的train valid test以及交叉验证
转自 https://www.cnblogs.com/rainsoul/p/6373385.html 在以前的网络训练中,有关于验证集一直比较疑惑,在一些机器学习的教程中,都会提到,将数据集分为三部分 ...

随机推荐

Python读取文件时输入文件绝对路径报错
问题描述读取本地文件,输入绝对路径时出错,显示数据被截断. 最开始以为是转译错误,因为eclipse会自动把\变成\\, pycharm这里没有,就手动改一下.结果还是不行. 根本原因文件名出错了 ...
java某些基础知识点整理
1. \n换行 \r回车 \"双引号 \\反斜杠 2.Java语言提供了八种基本类型.六种数字类型(四个整数型,两个浮点型),一种字符类型,还有一种布尔型. byte: byte 数据类型是 ...
为什么说JAVA中要慎重使用继承
JAVA中使用到继承就会有两个无法回避的缺点: 打破了封装性,迫使开发者去了解超类的实现细节,子类和超类耦合. 超类更新后可能会导致错误. 继承打破了封装性关于这一点,下面是一个详细的例子(来源于E ...
Java 11 新功能来了！
关键时刻,第一时间送达! 目前 Oracle 已经发布了 Java Development Kit 10,下个版本 JDK 11 也即将发布.本文介绍 Java 11 的新功能. 根据Oracle新出 ...
越来越火的"中台"是什么
很多企业都将促进业务与科技的深度融合作为发展战略,也都想学学阿里的中台战略,其实,除了中台战略之外,基于企业级业务架构设计来实现组件化开发也是企业数字化转型的优选路径,是弥合业务与技术之间“数字鸿沟” ...
Redis in .NET Core 入门：(5) Sorted SET
第1篇:https://www.cnblogs.com/cgzl/p/10294175.html 第2篇 String:https://www.cnblogs.com/cgzl/p/10297565. ...
Nginx的“远方表哥”—Tengine
本文收录在Linux运维企业架构实战系列今天想起当初研究nginx反向代理负载均衡时,nginx自身的upstream后端配置用着非常不舒服: 当时使用的淘宝基于nginx二次开发的Tengine, ...
设计模式之结构类模式PK
结构类模式包括: 适配器模式桥梁模式组合模式装饰模式门面模式享元模式代理模式结构类模式着重于如何建立一个软件结构为什么叫结构类模式呢? 因为他们都是通过组合类或对象产生更大结构以适应更 ...
如何修复使用WSUS进行升级Win 10 更新1809的报错（0x8024200）
备注:该文档有另一个姊妹篇,介绍如何修复下游服务器一直有处于需要文件下载的状况. /* Style Definitions */ table.MsoNormalTable {mso-style-nam ...
windows之自动化在虚拟机部署操作系统并自带python环境
(1)使用详情: **************************** * 操作说明 * **************************** 1.修改Config文件夹中的Se ...

机器学习——交叉验证，GridSearchCV，岭回归

机器学习——交叉验证，GridSearchCV，岭回归的更多相关文章

随机推荐

热门专题