sklearn中，数据集划分函数 StratifiedShuffleSplit.split() 使用踩坑

在SKLearn中，StratifiedShuffleSplit 类实现了对数据集进行洗牌、分割的功能。但在今晚的实际使用中，发现该类及其方法split()仅能够对二分类样本有效。

一个简单的例子如下：

 1 import numpy as np

 2 from sklearn.model_selection import StratifiedShuffleSplit

 3

 4 l4 = np.array([[1,2],[3,4],[1,4],[3,5]])

 5 l5 = np.array([0,1,0,2])

 6 splt = StratifiedShuffleSplit(n_splits=1,test_size=0.5,random_state=1)

 7 for train_idx, valid_idx in splt.split(l4, l5):

 8     print(train_idx,valid_idx)

 9 print('=======')

10 print(l4[train_idx],l4[valid_idx])

11 print('=======')

12 print(l5[train_idx],l5[valid_idx])

l4 为样本输入列表，l5 为样本输出列表，其中，样本输出（l5）共有3类：[0,1,2] 此时，运行程序会报错：

ValueError: The least populated class in y has only 1 member, which is too few. The minimum number of groups for any class cannot be less than 2.

报错信息的字面意思是：我样本输出仅有1类，需要最少2类。但问题是我实际上有3类输出样本。这个问题百度了半天也没找到合适的解答。

后面将3类样本改为2类，该函数就能正常运行了。

 1 import numpy as np

 2 from sklearn.model_selection import StratifiedShuffleSplit

 3

 4 l4 = np.array([[1,2],[3,4],[1,4],[3,5]])

 5 l5 = np.array([0,1,0,1])

 6 splt = StratifiedShuffleSplit(n_splits=1,test_size=0.5,random_state=1)

 7 for train_idx, valid_idx in splt.split(l4, l5):

 8     print(train_idx,valid_idx)

 9 print('=======')

10 print(l4[train_idx],l4[valid_idx])

11 print('=======')

12 print(l5[train_idx],l5[valid_idx])

注意，在上方代码第5行，将 l5 的值进行修改，样本输出仅有[0,1]两类。

此时运行程序，运行无误。

StratifiedShuffleSplit.split() 函数对于多分类问题还是无法正确适配。

sklearn中，数据集划分函数 StratifiedShuffleSplit.split() 使用踩坑的更多相关文章

Date()日期函数浏览器兼容问题踩坑
原文:Date()日期函数浏览器兼容问题踩坑之前用layui做的一项目中,table中用到了日期格式化的问题.直接没多想,撸代码就完了呗,结果最近一段时间客户反馈说显示日期跟录入日期不一样(显示日期 ...
Net4.6 Task 异步函数比同步函数慢5倍踩坑经历
Net4.6 Task 异步函数比同步函数慢5倍踩坑经历 https://www.cnblogs.com/shuxiaolong/p/DotNet_Task_BUG.html 异步Task简单 ...
机器学习实战基础（十九）：sklearn中数据集
sklearn提供的自带的数据集 sklearn 的数据集有好多个种自带的小数据集(packaged dataset):sklearn.datasets.load_<name> 可在 ...
『审慎』.Net4.6 Task 异步函数比同步函数慢5倍踩坑经历
异步Task简单介绍本标题有点哗众取宠,各位都别介意(不排除个人技术能力问题) —— 接下来:我将会用一个小Demo 把本文思想阐述清楚. .Net 4.0 就有了 Task 函数 —— 异步编 ...
sklearn中的分词函数countVectorizer()的改动--保留长度为1的字符串
1简述问题使用countVectorizer()将文本向量化时发现,文本中长度唯一的字符串会被自动过滤掉,这对于我在做的情感分析来讲,一些表较重要的表达情感倾向的词汇被过滤掉,比如文本'没用的东西, ...
Python中字符串操作函数string.split('str1')和string.join(ls)
Python中的字符串操作函数split 和 join能够实现字符串和列表之间的简单转换, 使用 .split()可以将字符串中特定部分以多个字符的形式,存储成列表 def split(self, * ...
转载 --- SKLearn中预测准确率函数介绍
混淆矩阵 confusion_matrix 下面将一一给出'tp','fp','fn'的具体含义: 准确率: 所有识别为"1"的数据中,正确的比率是多少. 如识别出来100个结果是 ...
C# 中奇妙的函数–String Split 和 Join
很多时候处理字符串数据,比如从文件中读取或者存入 - 我们可能需要加入分隔符(如CSV文件中的逗号),或使用一个分隔符来合并字符串序列. 很多人都知道使用split()的方法,但使用与其对应的Join ...
sklearn中的cross_val_score()函数
sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1, verb ...

随机推荐

0609-搭建ResNet网络
0609-搭建ResNet网络目录一.ResNet 网络概述二.利用 torch 实现 ResNet34 网络三.torchvision 中的 resnet34网络调用四.第六章总结 pyt ...
SAAS云平台搭建札记: (四) AntD For React使用react-router-dom路由接收不同参数页面不刷新的问题
在.net开发员眼里,如果使用MVC,根据路由匹配原则,可以通过各种方式接收参数,比如 /Post/List/1, /Post/List/2,或者 /Post/List?id=1,/Post/List ...
你可能不知道的CSS元素隐藏“失效”以其妙用
在CSS中,让元素隐藏(指屏幕范围内肉眼不可见)的方法很多,有的占据空间,有的不占据空间:有的可以响应点击,有的不能响应点击.后宫选秀--一个一个看. { display: none; /* 不占据空 ...
hdu4973 线段树（题目不错，用了点，段，更新查找还有DFS）
题意: 给你一个初始序列,初始序列长度n,分别为1 2 3 4 5 ....n,有两种操作 (1)D l r 把l_r之间的数据都复制一遍 1 2 3 4 5 6 D 2 4 = 1 2 ...
Windows核心编程笔记之作业
创建作业,并加以限制 HANDLE WINAPI CreateJob() { BOOL IsInJob = FALSE; DWORD ErrorCode = NULL; // 不能将已经在作业中的进程 ...
c/c++ 指针函数和函数指针
指针函数:返回指针类型的函数,定义方法如下: 类型标识符 *函数名(参数列表) 函数指针:指向函数入口地址的指针,定义方法如下: 类型标识符 (*指针名称)(形参列表) 下面我们通过一段代码加深我们的 ...
手撸了一个starter，同事直夸我666~
Spring Boot starter原理 Spring Boot 将常见的开发功能,分成了一个个的starter,这样我们开发功能的时候只需要引入对应的starter,而不需要去引入一堆依赖了!st ...
电脑提示无法装入/加载SolidWorks DLL文件:sldshellutils如何解决
电脑提示无法装入/加载SolidWorks DLL文件:sldshellutils如何解决参考资料:http://www.xitongcheng.com/jiaocheng/dnrj_article ...
一句 Task.Result 就死锁, 这代码还怎么写？
一:背景 1. 讲故事前些天把 .NET 高级调试方面的文章索引到 github 的过程中,发现了一个有意思的评论,详见文章,截图如下: 大概就是说在 Winform 的主线程下执行 Task. ...
高性能MySQL-索引
创建索引-高效索引 1.1 索引初体验 1.1.1 介绍索引是一种特殊的文件(InnoDB数据表上的索引是表空间的一个组成部分),它们包含着对数据表里所有记录的引用指针. 索引的作用是做数据的快速检 ...

sklearn中，数据集划分函数 StratifiedShuffleSplit.split() 使用踩坑

sklearn中，数据集划分函数 StratifiedShuffleSplit.split() 使用踩坑的更多相关文章

随机推荐

热门专题