Kaggle(2)：验证和过分拟合

目前看来，随机森林是比较常用且有效的分类算法。以下先简要介绍python中随机森林的使用方法，然后谈谈分类结果的准确度验证和过拟合等两个重要问题。

1、随机森林的参数

在Scikit learn中使用RandomForestClassifier()进行随机森林分类，其中参数random_state为生成随机数的种子，n_estimators为随机森林的数目，min_samples_split为进一步分裂所要求的最小样本数量，min_samples_leaf为叶子节点的最小样本数量。

在处理的对象为小样本时，随机森林的数目n_estimators不宜过大；适当增加min_samples_split和min_samples_leaf都能够一定程度上避免模型的过拟合问题。

alg = sklearn.ensemble.RandomForestClassifier (random_state=1,n_estimators=150,

min_samples_split=4, min_samples_leaf=2)

2、人工验证

可以使用train_test_split函数人工提取train/test数据，对所建立的模型进行验证。其中test_size表示测试样本所占比例。

sklearn.cross_validation.train_test_split(*arrays,**options)

X_train, X_test, y_train, y_test = cross_validation.train_test_split(iris.data,iris.target, test_size=0.4, random_state=0)

>>> X_train.shape, y_train.shape

((90, 4), (90,))

>>> X_test.shape, y_test.shape

((60, 4), (60,))

3、交叉验证

利用scikit learn的交叉验证方法，可以仅使用训练数据集测试模型的准确性。其中最常见的是K折交叉验证：即将训练样本集分割成K个子样本，其中一个子样本被保留作为验证模型的测试数据，其他K-1个样本用来训练；交叉验证的过程重复K次，每个子样本验证一次，平均K次的结果，最终得到一个单一的准确度估测。

具体方法如下，其中cv表示K-折验证中的K值，例如cv=2表示二折交叉验证；n_jobs表示CPU数量。

sklearn.cross_validation.cross_val_score(estimator, X,y=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch=‘2*n_jobs’)

4、关注过分拟合

过分拟合（overfitting）的直接结果是：对于训练集样本数据的交叉验证精度很高，但是用在实际测试集数据上，预测精度要低许多。

有时候为了使模型对实际（或测试）样本具有更高的预测精度，要适当降低模型在训练样本集上的预测准确度，避免由于过拟合所造成的适应性降低问题。

Kaggle(2)：验证和过分拟合的更多相关文章

小白学习之pytorch框架(6)-模型选择(K折交叉验证)、欠拟合、过拟合(权重衰减法(=L2范数正则化)、丢弃法)、正向传播、反向传播
下面要说的基本都是<动手学深度学习>这本花书上的内容,图也采用的书上的首先说的是训练误差(模型在训练数据集上表现出的误差)和泛化误差(模型在任意一个测试数据集样本上表现出的误差的期望) ...
解决kaggle邮箱验证不能confirm的问题
感谢这位博主 https://blog.csdn.net/FrankieHello/article/details/78230533
Kaggle初学者五步入门指南，七大诀窍助你享受竞赛
Kaggle 是一个流行的数据科学竞赛平台,已被谷歌收购,参阅<业界 | 谷歌云官方正式宣布收购数据科学社区 Kaggle>.作为一个竞赛平台,Kaggle 对于初学者来说可能有些难度.毕 ...
机器学习中模型泛化能力和过拟合现象(overfitting)的矛盾、以及其主要缓解方法正则化技术原理初探
1. 偏差与方差 - 机器学习算法泛化性能分析在一个项目中,我们通过设计和训练得到了一个model,该model的泛化可能很好,也可能不尽如人意,其背后的决定因素是什么呢?或者说我们可以从哪些方面去 ...
【转】Kaggle注册问题-验证码和手机短信
注册和登录Kaggle时验证码无法显示问题参考:https://blog.csdn.net/zhuisaozhang1292/article/details/81529981 应用FQ软件需要时时关 ...
overfitting(过度拟合)的概念
来自:http://blog.csdn.net/fengzhe0411/article/details/7165549 最近几天在看模式识别方面的资料,多次遇到“overfitting”这个概念,最终 ...
PRML读书会第一章 Introduction(机器学习基本概念、学习理论、模型选择、维灾等)
主讲人常象宇大家好,我是likrain,本来我和网神说的是我可以作为机动,大家不想讲哪里我可以试试,结果大家不想讲第一章.估计都是大神觉得第一章比较简单,所以就由我来吧.我的背景是统计与数学,稍懂 ...
算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)
算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification) 0.写在前面的话我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比 ...
Mahout之深入navie Bayesian classifier理论
转自:http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html 1.1.摘要贝叶斯分类是一类分 ...

随机推荐

SQL SERVER pivot（行转列），unpivot（列转行）
[pivot]行转列:多行变一列假设学生成绩表Score1 Name Subject Score 小张语文 88 小花数学 89 小张数学 90 Name 语文数学小花 null 89 小 ...
『计算机视觉』Mask-RCNN_推断网络终篇：使用detect方法进行推断
一.detect和build 前面多节中我们花了大量笔墨介绍build方法的inference分支,这节我们看看它是如何被调用的. 在dimo.ipynb中,涉及model的操作我们简单进行一下汇总, ...
react中直接调用子组件的方法（非props方式）
我们都知道在 react中,若要在父组件调用子组件的方法,通常我们会采用在父组件定义一个方法,作为props转给子组件,然后执行该方法,可以获取到子组件传回的参数以得到我们的目的. 显而易见,这个执行 ...
[洛谷 P3788] 幽幽子吃西瓜
妖梦费了好大的劲为幽幽子准备了一个大西瓜,甚至和兔子铃仙打了一架.现在妖梦闲来无事,就蹲在一旁看幽幽子吃西瓜.西瓜可以看作一个标准的球体,瓜皮是绿色的,瓜瓤是红色的,瓜皮的厚度可视为0.妖梦恰好以正视 ...
Qt_qwt图形开发
QWT,全称是Qt Widgets for Technical Applications,是一个基于LGPL版权协议的开源项目, 可生成各种统计图.它为具有技术专业背景的程序提供GUI组件和一组实用类 ...
css 改变浏览器滚动条的样式
/*滚动条样式*/ .innerbox::-webkit-scrollbar {/*滚动条整体样式*/ width: 4px; /*高宽分别对应横竖滚动条的尺寸*/ height: 4px; } .i ...
学习笔记-AngularJs（四）
之前学习的事视图与模版,我们在控制器文件中直接定义一个数组,让其在模版文件中用ng-repeat指令构造一个迭代器,定义的数组http://t.cn/RUbL4rP如同以下: $scope.phone ...
隔行变色&&鼠标移入变色
<html lang="en"> <head> <meta charset="UTF-8"> <title>Do ...
Ubuntu下怎么编译并运行C、C++和Pascal语言？
很多同学在安装了Ubuntu的环境后,发现在Windows下的许多东西都打不开了,但是用网站上的在线IDE又不是很方便. 所以,ljn教你如何在Ubuntu下编译并运行C.C++和Pascal. 一. ...
Model1与Model2
Model1与Model2开发模式的介绍及区别转载浅析Java开发中的Model1和Model2

Kaggle(2)：验证和过分拟合

Kaggle(2)：验证和过分拟合的更多相关文章

随机推荐

热门专题