Sklearn 中的 CrossValidation 交叉验证

1. 交叉验证概述

进行模型验证的一个重要目的是要选出一个最合适的模型，对于监督学习而言，我们希望模型对于未知数据的泛化能力强，所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。

最先我们用训练准确度（用全部数据进行训练和测试）来衡量模型的表现，这种方法会导致模型过拟合；为了解决这一问题，我们将所有数据分成训练集和测试集两部分，我们用训练集进行模型训练，得到的模型再用测试集来衡量模型的预测表现能力，这种度量方式叫测试准确度，这种方式可以有效避免过拟合。

测试准确度的一个缺点是其样本准确度是一个高方差估计（high varianceestimate），所以该样本准确度会依赖不同的测试集，其表现效果不尽相同。

2. K折交叉验证

将数据集平均分割成K个等份
使用1份数据作为测试数据，其余作为训练数据
计算测试准确率
使用不同的测试集，重复2、3步骤
对测试准确率做平均，作为对未知数据预测准确率的估计

sklearn.model_selection.Kfold

classsklearn.model_selection.KFold(n_splits=3,shuffle=False, random_state=None)

参数：

n_splits : 默认3，最小为2；K折验证的K值
shuffle : 默认False;shuffle会对数据产生随机搅动(洗牌)
random_state :默认None，随机种子

get_n_splits([X, y, groups]) Returnsthe number of splitting iterations in the cross-validator

split(X[, y, groups]) Generateindices to split data into training and test set.

3. sklearn.cross_validation模块

cross validation大概的意思是：对于原始数据我们要将其一部分分为traindata，一部分分为test data。train data用于训练，test data用于测试准确率。在test data上测试的结果叫做validation error。将一个算法作用于一个原始数据，我们不可能只做出随机的划分一次train和testdata，然后得到一个validation error，就作为衡量这个算法好坏的标准。因为这样存在偶然性。我们必须多次的随机的划分train data和test data，分别在其上面算出各自的validation error。这样就有一组validationerror，根据这一组validationerror，就可以较好的准确的衡量算法的好坏。crossvalidation是在数据量有限的情况下的非常好的一个evaluate performance的方法。而对原始数据划分出train data和testdata的方法有很多种，这也就造成了cross validation的方法有很多种。

主要函数：

sklearn中的cross validation模块，最主要的函数是如下函数：

sklearn.cross_validation.cross_val_score

调用形式是：sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None,n_jobs=1, verbose=0, fit_params=None, pre_dispatch='2*n_jobs')

返回值就是对于每次不同的的划分raw data时，在test data上得到的分类的准确率。

参数解释：

estimator：是不同的分类器，可以是任何的分类器。比如支持向量机分类器：estimator = svm.SVC(kernel='linear', C=1)

cv：代表不同的cross validation的方法。如果cv是一个int值，并且如果提供了rawtarget参数，那么就代表使用StratifiedKFold分类方式；如果cv是一个int值，并且没有提供rawtarget参数，那么就代表使用KFold分类方式；也可以给定它一个CV迭代策略生成器，指定不同的CV方法。

scoring: 默认Nnoe，准确率的算法，可以通过score_func参数指定；如果不指定的话，是用estimator默认自带的准确率算法。

4. 几种不同的CV策略生成器

cross_val_score中的参数cv可以接受不同的CV策略生成器作为参数，以此使用不同的CV算法。除了刚刚提到的KFold以及StratifiedKFold这两种对rawdata进行划分的方法之外，还有其他很多种划分方法，这里介绍几种sklearn中的CV策略生成器函数。

K-fold

最基础的CV算法，也是默认采用的CV策略。主要的参数包括两个，一个是样本数目，一个是k-fold要划分的份数。

# 交叉验证例子

import numpy as np

from sklearn.model_selection import KFold

X= np.array([[1, 2], [3, 4], [1, 2], [3, 4]])

y= np.array([1, 2, 3, 4])

kf= KFold(n_splits=2)

kf.get_n_splits(X)#给出K折的折数，输出为2

print(kf)

#输出为：KFold(n_splits=2, random_state=None,shuffle=False)

for train_index, test_index in kf.split(X):

    print("TRAIN:",train_index, "TEST:", test_index)

    X_train,X_test = X[train_index], X[test_index]

    y_train,y_test = y[train_index], y[test_index]

#输出：TRAIN: [2 3] TEST: [0 1]

#TRAIN: [0 1] TEST: [2 3]

#这里kf.split(X)返回的是X中进行分裂后train和test的索引值，令X中数据集的索引为0，1，2，3；

第一次分裂，先选择test，索引为0和1的数据集为test,剩下索引为2和3的数据集为train；

第二次分裂，先选择test，索引为2和3的数据集为test,剩下索引为0和1的数据集为train。

Stratified k-fold

与k-fold类似，将数据集划分成k份，不同点在于，划分的k份中，每一份内各个类别数据的比例和原始数据集中各个类别的比例相同。

classsklearn.model_selection.StratifiedKFold(n_splits=3,shuffle=False, random_state=None)

from sklearn.model_selection import StratifiedKFold

X= np.array([[1, 2], [3, 4], [1, 2], [3, 4]])

y= np.array([0, 0, 1, 1])

skf= StratifiedKFold(n_splits=2)

skf.get_n_splits(X, y)#给出K折的折数，输出为2

print(skf)

#输出为：StratifiedKFold(n_splits=2,random_state=None, shuffle=False)

for train_index, test_index in skf.split(X, y):

    print("TRAIN:",train_index, "TEST:", test_index)

    X_train,X_test = X[train_index], X[test_index]

    y_train,y_test = y[train_index], y[test_index]

#输出：TRAIN: [1 3] TEST: [0 2]

#       TRAIN: [0 2] TEST: [1 3]

Leave-one-out

每个样本单独作为验证集,其余的N-1个样本作为训练集,所以LOO-CV会得到N个模型,用这N个模型最终的验证集的分类准确率的平均数作为此下LOO-CV分类器的性能指标。参数只有一个，即样本数目。

from sklearn.model_selection import LeaveOneOut

X= [1, 2, 3, 4]

loo= LeaveOneOut()

for train, test in loo.split(X):

    print("%s%s" % (train, test))

Leave-P-out

每次从整体样本中去除p条样本作为测试集，如果共有n条样本数据，那么会生成（n p）个训练集/测试集对。和LOO，KFold不同，这种策略中p个样本中会有重叠。

from sklearn.model_selection import LeavePOut

X= np.ones(4)

lpo= LeavePOut(p=2)

for train, test in lpo.split(X):

    print("%s%s" % (train, test))

Leave-one-label-out

这种策略划分样本时，会根据第三方提供的整数型样本类标号进行划分。每次划分数据集时，取出某个属于某个类标号的样本作为测试集，剩余的作为训练集。

Leave-P-Label-Out

与Leave-One-Label-Out类似，但这种策略每次取p种类标号的数据作为测试集，其余作为训练集.

原文参考：https://blog.csdn.net/CherDW/article/details/54986863

注：仅为学习记录之用，感谢博主。

Sklearn 中的 CrossValidation 交叉验证的更多相关文章

[FML]学习笔记一Cross-validation交叉验证
在实际的工程中,有时labeled data的数量不足以留出validation sample(验证样本)否则会导致training sample(训练样本)的数量太少.为了解决这个问题,我们引入一种 ...
sklearn的K折交叉验证函数KFold使用
K折交叉验证时使用: KFold(n_split, shuffle, random_state) 参数:n_split:要划分的折数 shuffle: 每次都进行shuffle,测试集中折数的总和就是 ...
使用sklearn进行交叉验证
模型评估方法假如我们有一个带标签的数据集D,我们如何选择最优的模型? 衡量模型好坏的标准是看这个模型在新的数据集上面表现的如何,也就是看它的泛化误差.因为实际的数据没有标签,所以泛化误差是不可能直接 ...
sklearn中的model_selection模块（1）
sklearn作为Python的强大机器学习包,model_selection模块是其重要的一个模块: 1.model_selection.cross_validation: (1)分数,和交叉验证分 ...
StratifiedShuffleSplit 交叉验证
python中数据集划分函数StratifiedShuffleSplit的使用文章开始先讲下交叉验证,这个概念同样适用于这个划分函数 1.交叉验证(Cross-validation) 交叉验证是指在 ...
sklearn中模型评估和预测
一.模型验证方法如下: 通过交叉验证得分:model_sleection.cross_val_score(estimator,X) 对每个输入数据点产生交叉验证估计:model_selection.c ...
交叉验证（cross validation）
转自:http://www.vanjor.org/blog/2010/10/cross-validation/ 交叉验证(Cross-Validation): 有时亦称循环估计, 是一种统计学上将数据 ...
Matlab交叉验证函数——crossvalind
Generate cross-validation indices 生成交叉验证索引 Syntax语法 Indices = crossvalind('Kfold', N, K) %K折交叉验证 ...
机器学习 - 案例 - 样本不均衡数据分析 - 信用卡诈骗 ( 标准化处理, 数据不均处理, 交叉验证, 评估, Recall值, 混淆矩阵, 阈值 )
案例背景银行评判用户的信用考量规避信用卡诈骗 ▒ 数据数据共有 31 个特征, 为了安全起见数据已经向了模糊化处理无法读出真实信息目标其中数据中的 class 特征标识为是否正常用户 (0 代表 ...

随机推荐

HDU 多校1.7
Function Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others)Total ...
Apache Kafka 企业级消息队列
1.大纲了解 Apache Kafka是什么掌握Apache Kafka的基本架构搭建Kafka集群掌握操作集群的两种方式了解Apache Kafka高级部分的内容 2.消息系统的作用是什么 ...
centos 7下查找大文件、大目录和常见文件查找操作
根据园子潇湘隐者的文章 <Linux如何查找大文件或目录总结>结合实际运维需要整理出常用命令目标文件和目录查找主要使用 find 命令结合 xargs (给命令传递参数的一个过滤器, ...
PKUSC2018训练日程(4.18~5.30)
(总计:共66题) 4.18~4.25:19题 4.26~5.2:17题 5.3~5.9: 6题 5.10~5.16: 6题 5.17~5.23: 9题 5.24~5.30: 9题 4.18 [BZO ...
[BZOJ 4117] Weather Report
Link: BZOJ 4117 传送门 Solution: 第一次写$Huffman Tree$相关,发现就是个合并果子? 此题可以将每一种情况的概率和排列总数算出,接下来就是按照$Haffman T ...
【前缀和】【前缀MAX】洛谷 P1351 NOIP2014提高组 day1 T2 联合权值
不难发现,树中与某个点距离为2的点只可能是它的父亲的父亲.儿子的儿子或者兄弟,分类讨论一下即可. 只有对于兄弟我们不能暴力搞,维护一下每个节点的所有儿子的前缀和.前缀MAX就行了. #includ ...
python3 开发面试题（装饰器必须考）6.4
def f(): print("2018-06-04") # 每次调用f的时候在打印"2018-06-04" 之前打印一句开始, 之后再打印一句结束 de ...
N进制加法
我是网络公司的一名普通程序员,英文名Steven,发音比较像“师弟”,自从入职培训自我介绍后,大家就称我为“二师弟”,我喜欢看科幻小说,也喜欢做梦,有一次梦到外星球,发现外星人使用的并非10进制/16 ...
Java - Struts框架教程 Hibernate框架教程 Spring框架入门教程（新版） sping mvc spring boot spring cloud Mybatis
https://www.zhihu.com/question/21142149 http://how2j.cn/k/hibernate/hibernate-tutorial/31.html?tid=6 ...
java获取桌面路径的方法
FileSystemView fsv = FileSystemView.getFileSystemView(); File com=fsv.getHomeDirectory(); System.out ...

Sklearn 中的 CrossValidation 交叉验证

Sklearn 中的 CrossValidation 交叉验证的更多相关文章

随机推荐

热门专题