k-交叉验证KFold

交叉验证的原理放在后面，先看函数。

设X是一个9*3的矩阵，即9个样本，3个特征，y是一个9维列向量，即9个标签。现在我要进行3折交叉验证。

执行kFold = KFold(n_splits=3) ：其中KFold是一个类，n_split=3表示，当执行KFold的split函数后，数据集被分成三份，两份训练集和一份验证集。

执行index = kFold.split(X=X)：index是一个生成器，每个元素是一个元组，元组里面有两个元素，第一个是训练集的索引，第二个是验证集的索引。因为这里将9个样本分成三份，所以index中有三个这样的元组

之后便可以迭代index来获得训练集和验证集的索引，从而获得训练集和测试集了

下面是代码示例

 import numpy as np

 from sklearn.model_selection import KFold

 a = np.arange(27).reshape(9, 3)

 print(a)

 b = np.arange(9).reshape(9, 1)

 kfold = KFold(n_splits=3, shuffle=True)

 index = kfold.split(X=a)

 print(list(index))

 print(type(index))

 index = kfold.split(X=a, y=b)

 for train_index, test_index in index:

     print("-------------------------------------------------")

     print(a[train_index]) #注意如果a是datafram类型就得用a.iloc[tain_index], 因为a[train_index]会被认为是访问列

     print(a[test_index])

运行结果如下：

[[ 0 1 2]
[ 3 4 5]
[ 6 7 8]
[ 9 10 11]
[12 13 14]
[15 16 17]
[18 19 20]
[21 22 23]
[24 25 26]]
[(array([0, 1, 3, 4, 5, 6]), array([2, 7, 8])), (array([1, 2, 3, 4, 7, 8]), array([0, 5, 6])), (array([0, 2, 5, 6, 7, 8]), array([1, 3, 4]))]
<class 'generator'>
-------------------------------------------------
[[ 6 7 8]
[ 9 10 11]
[12 13 14]
[18 19 20]
[21 22 23]
[24 25 26]]
[[ 0 1 2]
[ 3 4 5]
[15 16 17]]
-------------------------------------------------
[[ 0 1 2]
[ 3 4 5]
[ 9 10 11]
[15 16 17]
[21 22 23]
[24 25 26]]
[[ 6 7 8]
[12 13 14]
[18 19 20]]
-------------------------------------------------
[[ 0 1 2]
[ 3 4 5]
[ 6 7 8]
[12 13 14]
[15 16 17]
[18 19 20]]
[[ 9 10 11]
[21 22 23]
[24 25 26]]

Process finished with exit code 0

原理补充：

在机器学习建模过程中，通行的做法通常是将数据分为训练集和测试集。测试集是与训练独立的数据，完全不参与训练，用于最终模型的评估。在训练过程中，经常会出现过拟合的问题，就是模型可以很好的匹配训练数据，却不能很好在预测训练集外的数据。如果此时就使用测试数据来调整模型参数，就相当于在训练时已知部分测试数据的信息，会影响最终评估结果的准确性。通常的做法是在训练数据再中分出一部分做为验证(Validation)数据，用来评估模型的训练效果。

验证数据取自训练数据，但不参与训练，这样可以相对客观的评估模型对于训练集之外数据的匹配程度。模型在验证数据中的评估常用的是交叉验证，又称循环验证。它将原始数据分成K组(K-Fold)，将每个子集数据分别做一次验证集，其余的K-1组子集数据作为训练集，这样会得到K个模型。这K个模型分别在验证集中评估结果，最后的误差MSE(Mean Squared Error)加和平均就得到交叉验证误差。交叉验证有效利用了有限的数据，并且评估结果能够尽可能接近模型在测试集上的表现，可以做为模型优化的指标使用。

k-交叉验证KFold的更多相关文章

k-折交叉验证(k-fold crossValidation)
k-折交叉验证(k-fold crossValidation): 在机器学习中,将数据集A分为训练集(training set)B和测试集(test set)C,在样本量不充足的情况下,为了充分利用数 ...
用交叉验证改善模型的预测表现－着重k重交叉验证
机器学习技术在应用之前使用“训练+检验”的模式(通常被称作”交叉验证“). 预测模型为何无法保持稳定? 让我们通过以下几幅图来理解这个问题: 此处我们试图找到尺寸(size)和价格(price)的关系 ...
K折-交叉验证
k-折交叉验证(k-fold crossValidation):在机器学习中,将数据集A分为训练集(training set)B和测试集(test set)C,在样本量不充足的情况下,为了充分利用数据 ...
交叉验证 Cross validation
来源:CSDN: boat_lee 简单交叉验证 hold-out cross validation 从全部训练数据S中随机选择s个样例作为训练集training set,剩余的作为测试集testin ...
libsvm交叉验证与网格搜索（参数选择）
首先说交叉验证.交叉验证(Cross validation)是一种评估统计分析.机器学习算法对独立于训练数据的数据集的泛化能力(generalize), 能够避免过拟合问题.交叉验证一般要尽量满足:1 ...
sklearn的K折交叉验证函数KFold使用
K折交叉验证时使用: KFold(n_split, shuffle, random_state) 参数:n_split:要划分的折数 shuffle: 每次都进行shuffle,测试集中折数的总和就是 ...
[深度概念]·K-Fold 交叉验证 (Cross-Validation)的理解与应用
K-Fold 交叉验证 (Cross-Validation)的理解与应用我的网站 1.K-Fold 交叉验证概念在机器学习建模过程中,通行的做法通常是将数据分为训练集和测试集.测试集是与训练独立的 ...
机器学习--K折交叉验证和非负矩阵分解
1.交叉验证交叉验证(Cross validation),交叉验证用于防止模型过于复杂而引起的过拟合.有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法. 于是可以先在一个子集上做 ...
cross_val_score 交叉验证与 K折交叉验证，嗯都是抄来的，自己作个参考
因为sklearn cross_val_score 交叉验证,这个函数没有洗牌功能,添加K 折交叉验证,可以用来选择模型,也可以用来选择特征 sklearn.model_selection.cross ...
K-Fold 交叉验证
转载--原文地址 www.likecs.com 1.K-Fold 交叉验证概念在机器学习建模过程中,通行的做法通常是将数据分为训练集和测试集.测试集是与训练独立的数据,完全不参与训练,用于最终模型的 ...

随机推荐

iview 在Table组件中使用switch组件并自定义内容和增加自定义事件
注意: 使用render函数. 效果: 添加自定义文字: 1. 2. 上面的两种方法效果都是一样的: 增加自定义事件: 结果: 自信是进步的源泉. 继续加油. ^_^
SpringCloud使用feign时的复杂参数传递（转）
Feign传参注意最近在用SpringCloud尝试重构以前的项目,使用Feign客户端组件来调用微服务,经常出现参数传不过去变成null的问题,网上查了一下发现feign在参数上的使用还是有一定的 ...
Libraries&Workflow for a modern geospatial processing(现代地理空间处理的库与工作流)
Libraries for a modern geospatial workflow现代地理空间工作的类库 Distribution Writing, Running, and Distributin ...
分治NTT：我卷我自己
感觉这种东西每次重推一遍怪麻烦的,就写在这里了. 说白了就是根据分治区间左端点是否为\(0\)分类讨论一下,一般是如果不是\(0\)就要乘\(2\),不过还是需要具体问题具体分析一下才好(就比如下面的 ...
JS框架_(JQuery.js)模拟刮奖
百度云盘:传送门密码:6p5q 纯CSS模拟刮奖效果 <!DOCTYPE html> <html lang="en"> <head> < ...
jQuery实现表单动态添加与删除数据操作示例
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&q ...
TensorFlow自动求梯度
例1 import tensorflow as tf a=tf.Variable(tf.constant(1.0),name='a') b=tf.Variable(tf.constant(1.0),n ...
3.1 JAVA集合框架以及区别
涉及的参考链接:https://www.runoob.com/java/java-collections.html,http://how2j.cn/k/collection/collection-ar ...
localhost与127.0.0.1的区别是什么?
localhost与127.0.0.1的区别是什么?都代表本地服务器相信有人会说是本地ip,曾有人说,用127.0.0.1比localhost好,可以减少一次解析. 看来这个问题还有人不清楚,其实这 ...
python 生成随机数的几种方法
随机取一个: import random random.choice(string.digits)#从数字里随机选取一位数字: 随机取多位数: random.sample(string.dig ...

k-交叉验证KFold

k-交叉验证KFold的更多相关文章

随机推荐

热门专题