使用Sklearn-train_test_split 划分数据集

使用sklearn.model_selection.train_test_split可以在数据集上随机划分出一定比例的训练集和测试集

1.使用形式为：

 from sklearn.model_selection import train_test_split

 X_train, X_test, y_train, y_test = train_test_split(train_data,train_target,test_size=0.2, random_state=0)

2.参数解释：

train_data：样本特征集

train_target：样本的标签集

test_size：样本占比，测试集占数据集的比重，如果是整数的话就是样本的数量

random_state：是随机数的种子。在同一份数据集上，相同的种子产生相同的结果，不同的种子产生不同的划分结果

X_train,y_train:构成了训练集

X_test,y_test：构成了测试集

3.举例：

生成一个包含100个样本的数据集，随机换分出20%为测试集

 #py36

 #!/usr/bin/env python

 # -*- coding: utf-8 -*-

 #from sklearn.cross_validation import train_test_split

 from sklearn.model_selection import train_test_split 

 # 生成100条数据：100个2维的特征向量，对应100个标签

 X = [["feature ","one "]] * 50 + [["feature ","two "]] * 50

 y = [1] * 50 + [2] * 50

 # 随机抽取20%的测试集

 X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2,random_state=1)

 print ("train:",len(X_train), "test:",len(X_test))

 # 查看被划分出的测试集

 for i in range(len(X_test)):

     print ("".join(X_test[i]), y_test[i])

 '''

 train: 80 test: 20

 feature two  2

 feature two  2

 feature one  1

 feature two  2

 feature two  2

 feature one  1

 feature one  1

 feature two  2

 feature two  2

 feature two  2

 feature two  2

 feature one  1

 feature two  2

 feature two  2

 feature two  2

 feature one  1

 feature one  1

 feature one  1

 feature two  2

 feature one  1

 '''

使用Sklearn-train_test_split 划分数据集的更多相关文章

sklearn——train_test_split 随机划分训练集和测试集
sklearn——train_test_split 随机划分训练集和测试集 sklearn.model_selection.train_test_split随机划分训练集和测试集官网文档:http: ...
Pytorch划分数据集的方法
之前用过sklearn提供的划分数据集的函数,觉得超级方便.但是在使用TensorFlow和Pytorch的时候一直找不到类似的功能,之前搜索的关键字都是"pytorch split dat ...
使用python划分数据集
无论是训练机器学习或是深度学习,第一步当然是先划分数据集啦,今天小白整理了一些划分数据集的方法,希望大佬们多多指教啊,嘻嘻~ 首先看一下数据集的样子,flower_data文件夹下有四个文件夹,每个文 ...
sklearn 划分数据集。
1.sklearn.model_selection.train_test_split随机划分训练集和测试集函数原型: X_train,X_test, y_train, y_test =cross_v ...
sklearn中的数据集的划分
sklearn数据集划分方法有如下方法: KFold,GroupKFold,StratifiedKFold,LeaveOneGroupOut,LeavePGroupsOut,LeaveOneOut,L ...
sklearn中，数据集划分函数 StratifiedShuffleSplit.split() 使用踩坑
在SKLearn中,StratifiedShuffleSplit 类实现了对数据集进行洗牌.分割的功能.但在今晚的实际使用中,发现该类及其方法split()仅能够对二分类样本有效. 一个简单的例子如下 ...
机器学习笔记2 – sklearn之iris数据集
前言本篇我会使用scikit-learn这个开源机器学习库来对iris数据集进行分类练习. 我将分别使用两种不同的scikit-learn内置算法--Decision Tree(决策树)和kNN(邻 ...
TF：利用sklearn自带数据集使用dropout解决学习中overfitting的问题+Tensorboard显示变化曲线—Jason niu
import tensorflow as tf from sklearn.datasets import load_digits #from sklearn.cross_validation impo ...
解决Sklearn中使用数据集MNIST无法获取的问题(WinError 10060)
今天在学习PCA的时候,使用mnist数据集遇到一个问题,代码是这样的: import numpy as np from sklearn.datasets import fetch_mldata mn ...

随机推荐

Python学习之路13☞常用模块
一 time模块在Python中,通常有这几种方式来表示时间: 时间戳(timestamp):通常来说,时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量.我们运行“type(t ...
【Leetcode链表】回文链表（234）
题目请判断一个链表是否为回文链表. 示例 1: 输入: 1->2 输出: false 示例 2: 输入: 1->2->2->1 输出: true 进阶: 你能否用 O(n) ...
AtCoder Beginner Contest 075 D - Axis-Parallel Rectangle【暴力】
AtCoder Beginner Contest 075 D - Axis-Parallel Rectangle 我要崩溃,当时还以为是需要什么离散化的,原来是暴力,特么五层循环....我自己写怎么都 ...
COGS 775 山海经
COGS 775 山海经思路: 求最大连续子段和(不能不选),只查询,无修改.要求输出该子段的起止位置. 线段树经典模型,每个节点记录权值和sum.左起最大前缀和lmax.右起最大后缀和rmax.最 ...
W600 一块新的 KiCad PCB
W600 一块新的 KiCad PCB 打算做以下功能. Type-C USB. 使用 KiCad 画板. 加入串口芯片,方便调试. 使用 PCB 天线.
Java练习 SDUT-2272_Time
Time Time Limit: 1000 ms Memory Limit: 65536 KiB Problem Description Digital clock use 4 digits to e ...
include 语句中使用双引号与括号有什么区别？
Include 的语法你在学习如何构造函数时,看到了不同的 include 语句: # include <iostream> # include "distance.h&quo ...
[***]HZOJ 超级树
DeepinC超详细题解考试时想出是dp了,因为显然第i级超级树和第i+1级超级树是有联系的(然而我并不能推出来),这dp的状态鬼才想的出来……个人理解,dp的实质就是从小的状态向大的状态转移,从而 ...
day7_python之面向对象高级-反射
反射:通过字符串去找到真实的属性,然后去进行操作 python面向对象中的反射:通过字符串的形式操作对象相关的属性.python中的一切事物都是对象(都可以使用反射) 1.两种方法访问对象的属性 cl ...
【codeforces 520B】Two Buttons
[题目链接]:http://codeforces.com/contest/520/problem/B [题意] 给你一个数n; 对它进行乘2操作,或者是-1操作; 然后问你到达m需要的步骤数; [题解 ...

使用Sklearn-train_test_split 划分数据集

使用Sklearn-train_test_split 划分数据集的更多相关文章

随机推荐

热门专题