【机器学习笔记之六】Bagging 简述

本文结构：

基本流程
有放回抽样的好处
Bagging 特点
sklearn 中 Bagging 使用
Bagging 和 Boosting 的区别

bagging：bootstrap aggregating 的缩写。
是一种并行式集成学习方法，可用于二分类，多分类，回归等任务。

基本流程：

对一个包含 m 个样本的数据集，有放回地进行 m 次随机采样，这样得到具有 m 个样本的采样集。
取 T 个这样的采样集。
每个采样集训练一个基学习器。
结合：分类任务，使用简单投票法。回归任务，使用简单平均法。

有放回抽样的好处

这种有放回抽样会有 63.2% 的样本出现在采样集中，而剩下的 36.8% 样本可以作为验证集对模型的泛化性能进行包外估计。

当基学习器是决策树时，可以用包外样本来辅助剪枝，
还可以用于估计决策树中各结点的后验概率来辅助对零训练样本结点的处理。

基学习器是神经网络时，用包外样本来辅助早期停止来减小过拟合。

Bagging 特点

Bagging 主要关注降低方差，是要降低过拟合，而不会降低偏差，因此最好不要用高偏差的模型。
在不剪枝决策树，神经网络等易受样本扰动的学习器上效用更为明显。例如当基学习器是决策树时，Bagging 是并行的生成多个决策树，此时可以不做剪枝，这样每个都是强学习器，就会有过拟合的问题，但是多个学习器组合在一起，可以降低过拟合。

scikit-learn 中 Bagging 使用例子：

 from sklearn.ensemble import BaggingClassifier

 from sklearn.neighbors import KNeighborsClassifier

 model=BaggingClassifier(KNeighborsClassifier(), max_samples=0.5,max_features=0.5)

Bagging 和 Boosting 的区别

样本选择：Bagging 的训练集是在原始集中有放回选取的，各轮训练集之间是独立的，每个样例的权重相等；Boosting 的训练集不变，只是每个样例在分类器中的权重发生变化，错误的样本会得到更大的重视；
Bagging 的预测函数没有权重之分；Boosting 的预测函数是有权重之分，效果好的函数权重大；
Bagging 的各个预测函数并行产生，容易 map-reduce ，Boosting 的预测是顺序产生，后一个模型参数需要前一轮模型的结果。

学习资料：
《机器学习》
http://f.dataguru.cn/thread-301569-1-1.html
http://scikit-learn.org/stable/modules/ensemble.html#bagging
http://www.cnblogs.com/liuwu265/p/4690486.html
http://www.jianshu.com/p/708dff71df3a

【机器学习笔记之六】Bagging 简述的更多相关文章

Python机器学习笔记：sklearn库的学习
网上有很多关于sklearn的学习教程,大部分都是简单的讲清楚某一方面,其实最好的教程就是官方文档. 官方文档地址:https://scikit-learn.org/stable/ (可是官方文档非常 ...
Python机器学习笔记：不得不了解的机器学习面试知识点（1）
机器学习岗位的面试中通常会对一些常见的机器学习算法和思想进行提问,在平时的学习过程中可能对算法的理论,注意点,区别会有一定的认识,但是这些知识可能不系统,在回答的时候未必能在短时间内答出自己的认识,因 ...
Python机器学习笔记集成学习总结
集成学习(Ensemble learning)是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器显著优越的泛化性能.它不是一种单独的机器学习算法啊,而更像是一种优 ...
机器学习笔记：Gradient Descent
机器学习笔记:Gradient Descent http://www.cnblogs.com/uchihaitachi/archive/2012/08/16/2642720.html
机器学习笔记5-Tensorflow高级API之tf.estimator
前言本文接着上一篇继续来聊Tensorflow的接口,上一篇中用较低层的接口实现了线性模型,本篇中将用更高级的API--tf.estimator来改写线性模型. 还记得之前的文章<机器学习笔记 ...
【Visual C++】游戏编程学习笔记之六：多背景循环动画
本系列文章由@二货梦想家张程所写,转载请注明出处. 本文章链接:http://blog.csdn.net/terence1212/article/details/44264153 作者:ZeeCod ...
Python机器学习笔记：使用Keras进行回归预测
Keras是一个深度学习库,包含高效的数字库Theano和TensorFlow.是一个高度模块化的神经网络库,支持CPU和GPU. 本文学习的目的是学习如何加载CSV文件并使其可供Keras使用,如何 ...
机器学习笔记(4)：多类逻辑回归-使用gluton
接上一篇机器学习笔记(3):多类逻辑回归继续,这次改用gluton来实现关键处理,原文见这里 ,代码如下: import matplotlib.pyplot as plt import mxnet a ...
【转】机器学习笔记之（3）——Logistic回归（逻辑斯蒂回归）
原文链接:https://blog.csdn.net/gwplovekimi/article/details/80288964 本博文为逻辑斯特回归的学习笔记.由于仅仅是学习笔记,水平有限,还望广大读 ...

随机推荐

序列、视图、索引（面试看这个就GO了）
oracle内置对象序列.视图.索引序列 create sequence aaa start with 1; 使用视图创建好之后然后直接用就OK了有了视图可以代替子查询,使得sql简洁 ...
快学Scala之继承
## 1. 继承 Scala语言通过 extends 关键字来继承类. 那么继承一个类有什么好处呢? 子类除了拥有继承自超类的方法和字段(即为val(常量), var(变量)所定义的), 还可 ...
欢迎大家Follow me！微软MVP罗勇(Dynamics CRM方向)欢迎您！
我是一名八零后,来自湖南乡村,2002年毕业于大连大学工商管理专业,主要靠自学走上了编程之路.从2012年开始接触Dynamics CRM 2011,一直从事Dynamics CRM方面工作,熟悉Dy ...
Maven入门1-在Eclipse中新建Maven Web项目
在eclipse中新建Maven Web项目很多时候开发效率低下,大部分原因是IDE环境不熟悉.配置不会配置:因此在学习一项技能之前,有必要对基本的环境配置有所了解,正所谓磨刀不误砍柴工.这篇文章主 ...
编写高质量代码改善C#程序的157个建议：第17个建议之多数情况下使用foreach进行循环遍历
今天是我看<编写高质量代码:改善C#程序的157个建议>第二遍的时候了,看完这本书的确是受益匪浅,学到了很多东西,也明白了很多道理. 里面的代码我每个都调试了一遍,有时候是有些出入的,可能 ...
一步一步学Vue (一)
vue应该是前端主流框架中的集成大成者,它吸取了knockout,angular,react设置avalon的经验,支持各种模式写法,入门很简单,从本章开始,会记录学习vue中的点点滴滴,以笔记的形式 ...
Android studio中找不到so文件的问题：java.lang.UnsatisfiedLinkError
解决Android studio中找不到so文件的问题:java.lang.UnsatisfiedLinkError 表示我们不编译jni代码,直接从libs里面复制so库文件路径:app\buil ...
[信息安全] 4.一次性密码 && 身份认证三要素
[信息安全]系列博客:http://www.cnblogs.com/linianhui/category/985957.html 在信息安全领域,一般把Cryptography称为密码,而把Passw ...
luogu P2756 飞行员配对方案问题
题目链接:P2756 飞行员配对方案问题题目描述英国皇家空军从沦陷国征募了大量外籍飞行员.由皇家空军派出的每一架飞机都需要配备在航行技能和语言上能互相配合的2 名飞行员,其中1 名是英国飞行员,另 ...
android - 解决“应用自定义权限重名”
背景现场的开发今天跟我说,测试包装不上!报错"应用自定义权限重名"!!! 网上百度下关键字,发现魅族手机有这个毛病,顺藤摸瓜:"http://bbs.flyme.cn/ ...

【机器学习笔记之六】Bagging 简述

【机器学习笔记之六】Bagging 简述的更多相关文章

随机推荐

热门专题