sklearn 划分数据集。

1.sklearn.model_selection.train_test_split随机划分训练集和测试集

　　　　函数原型：

　　　　　　X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)

　　　　参数解释：　

　　train_data：所要划分的样本特征集

　　train_target：所要划分的样本结果

　　test_size：样本占比，如果是整数的话就是样本的数量

　　random_state：是随机数的种子。

　　　随机数种子的意义在于，如何区分这个数据集，完全是按照随机数种子来决定，至于怎么决定，我们其实并不关心，比如你分了两次，随机种子都是0，那么你得到的两次划分也一定是一样的。

     fromsklearn.cross_validation import train_test_split

     train= loan_data.iloc[0: 55596, :]

     test= loan_data.iloc[55596:, :]

     # 避免过拟合，采用交叉验证，验证集占训练集20%，固定随机种子（random_state)

     train_X,test_X, train_y, test_y = train_test_split(train,

                                                        target,

                                                        test_size = 0.2,

                                                        random_state = 0)

     train_y= train_y['label']

     test_y= test_y['label']

、

　　2. kl-fold 划分

将全部训练集S分成k个不相交的子集，假设S中的训练样例个数为m，那么每一个自己有m/k个训练样例，相应的子集为{s₁，s₂，...，s_k}
每次从分好的子集里面，拿出一个作为测试集，其他k-1个作为训练集
在k-1个训练集上训练出学习器模型
把这个模型放到测试集上，得到分类率的平均值，作为该模型或者假设函数的真实分类率

这个方法充分利用了所以样本，但计算比较繁琐，需要训练k次，测试k次

import numpy as np

#KFold

from sklearn.model_selection import KFold

X=np.array([[1,2],[3,4],[5,6],[7,8],[9,10],[11,12]])

y=np.array([1,2,3,4,5,6])

kf=KFold(n_splits=2)    #分成几个组

kf.get_n_splits(X)

print(kf)

for train_index,test_index in kf.split(X):

    print("Train Index:",train_index,",Test Index:",test_index)

    X_train,X_test=X[train_index],X[test_index]

    y_train,y_test=y[train_index],y[test_index]

    #print(X_train,X_test,y_train,y_test)

#KFold(n_splits=2, random_state=None, shuffle=False) #Train Index: [3 4 5] ,Test Index: [0 1 2] #Train Index: [0 1 2] ,Test Index: [3 4 5]

more:http://www.cnblogs.com/nolonely/p/7007432.html

sklearn 划分数据集。的更多相关文章

Pytorch划分数据集的方法
之前用过sklearn提供的划分数据集的函数,觉得超级方便.但是在使用TensorFlow和Pytorch的时候一直找不到类似的功能,之前搜索的关键字都是"pytorch split dat ...
机器学习实战基础（十九）：sklearn中数据集
sklearn提供的自带的数据集 sklearn 的数据集有好多个种自带的小数据集(packaged dataset):sklearn.datasets.load_<name> 可在 ...
使用python划分数据集
无论是训练机器学习或是深度学习,第一步当然是先划分数据集啦,今天小白整理了一些划分数据集的方法,希望大佬们多多指教啊,嘻嘻~ 首先看一下数据集的样子,flower_data文件夹下有四个文件夹,每个文 ...
使用Sklearn-train_test_split 划分数据集
使用sklearn.model_selection.train_test_split可以在数据集上随机划分出一定比例的训练集和测试集 1.使用形式为: from sklearn.model_selec ...
探索sklearn | 鸢尾花数据集
1 鸢尾花数据集背景鸢尾花数据集是原则20世纪30年代的经典数据集.它是用统计进行分类的鼻祖. sklearn包不仅囊括很多机器学习的算法,也自带了许多经典的数据集,鸢尾花数据集就是其中之一. 导入 ...
【机器学习算法-python实现】决策树-Decision tree（1）信息熵划分数据集
(转载请注明出处:http://blog.csdn.net/buptgshengod) 1.背景决策书算法是一种逼近离散数值的分类算法,思路比較简单,并且准确率较高.国际权威的学术组织,数据挖掘国际 ...
Python机器学习库SKLearn：数据集转换之管道和特征
转载自:https://blog.csdn.net/cheng9981/article/details/61918129 4.1 管道和特征:组合估计量 4.1.1 管道:链接估计管道可以用于将多个 ...
sklearn数据集的导入及划分
鸢尾花数据集的导入及查看: ①鸢尾花数据集的导入: from sklearn.datasets import load_iris ②查看鸢尾花数据集: iris=load_iris()print(&q ...
使用sklearn进行数据挖掘-房价预测(2)—划分测试集
使用sklearn进行数据挖掘系列文章: 1.使用sklearn进行数据挖掘-房价预测(1) 2.使用sklearn进行数据挖掘-房价预测(2)-划分测试集 3.使用sklearn进行数据挖掘-房价预 ...

随机推荐

ASP.NET Core 认证与授权[3]:OAuth & OpenID Connect认证
在上一章中,我们了解到,Cookie认证是一种本地认证方式,通常认证与授权都在同一个服务中,也可以使用Cookie共享的方式分开部署,但局限性较大,而如今随着微服务的流行,更加偏向于将以前的单体应用拆 ...
win10 3dmax 激活后反复激活和激活码无效问题
我也是遇到这个问题在网上找答案,像什么断网,清理注册表,删除某个.dat文件各种试了好多都没管用弄这个弄了五六个小时才总算成功心累现在我总结一下这些方法我是第一条成功的其他的我试着都没用 ...
win10 uwp 随着数字变化颜色控件
我朋友在做一个控件,是显示异常,那么异常多就变为颜色,大概就是下面的图,很简单首先是一个Ellipse,然后把他的颜色绑定到Int,需要一个转换,UWP的转换和WPF差不多,因为我现在还不会转换,就 ...
Servlet 笔记-异常处理
当一个 Servlet 抛出一个异常时,Web 容器在使用了 exception-type 元素的 web.xml 中搜索与抛出异常类型相匹配的配置. 必须在 web.xml 中使用 error-pa ...
Zookeeper 笔记-应用场景
应用场景:数据发布,订阅:分布式应用配置项:分布式计数器:统一命名服务:状态同步服务:集群管理:Master选举:分布式锁:定时任务争夺:分布式队列:分布式协调通知特点:顺序一致性,原子性,单一视图 ...
vuex的简易入门
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; color: #454545 } p. ...
Centos6.8 安装tomcat8.5.11
1.下载安装包 wget http://mirrors.aliyun.com/apache/tomcat/tomcat-8/v8.5.11/bin/apache-tomcat-8.5.11.tar. ...
CDN 机制
CDN的全称Content Delivery Network,(缩写:CDN)即内容分发网络. CDN是一个经策略性部署的整体系统,从技术上全面解决由于网络带宽小.用户访问量大.网点分布不均而产生的用 ...
javascript 备忘细节相关
DOMContentLoaded事件触发时机,即dom tree完成但页面未必渲染完毕. var a = [1,2,3,4]; var length = a.length; alert((leng ...
利用echarts highcharts 实现自定义地图关系图效果侧边3D柱形图饼图散点图
github 地址: https://https://github.com/Gengshaoxuan/medataMap github 地址: https://https://github.com ...

sklearn 划分数据集。

sklearn 划分数据集。的更多相关文章

随机推荐

热门专题