模式识别与机器学习—bagging与boosting

声明：本文用到的代码均来自于PRTools(http://www.prtools.org)模式识别工具箱，并以matlab软件进行实验。

（1）在介绍Bagging和Boosting算法之前，首先要简单了解什么是集成学习？

集成学习（Ensemble Learning）是目前模式识别与机器学习中常用的一种学习算法，是使用一系列的学习器（分类器）通过某种规则（投票法、加权投票等）将各分类器的学习结果进行融合，达到比单学习器识别效果更好地目的。

可以打一个简单的比喻，如果我们将“学习器”看做是一个“人”，现在我们需要进行的任务是识别汉字。一个人的识别内容终归是有限的，但是如果我们现在利用三个人来识别，同一个字当A识别错误时，B、C识别正确，最终以少数服从多数的原则取BC的识别结果，那么相比较只用A一个人来识别汉字的情况，我们的准确率会大大提升。当然也许这里有人会存在疑问：万一A本身是一个很有文化的人，B是一个不识字的人，那么叫他们两个一起识别汉字岂不是会拉低整体识别率么？这里也就牵扯到了学习器与学习器之间差异性度量的话题，这个话题在本文中不详细讲述，有兴趣的朋友可以自己查询了解，最白话的解释就是：参与集成学习的学习器们需要具有一定的差异值，既不能完全相同，也不能差异的太大。

在浅显的理解何为集成学习之后，我们来讲Bagging和Boosting，事实上这是两种非常重要的集成方法。

（2）Bagging

该算法在模式识别工具箱中的使用方法为：

W = baggingc (A,CLASSF,N,ACLASSF,T)

  INPUT

    A         Training dataset.

    CLASSF    The base classifier (default: nmc)

    N         Number of base classifiers to train (default: )

    ACLASSF   Aggregating classifier (default: meanc), [] for no aggregation.

    T         Tuning set on which ACLASSF is trained (default: [], meaning use A)

  OUTPUT

     W        A combined classifier (if ACLASSF was given) or a stacked

              classifier (if ACLASSF was []).

以上是PRtools工具箱中bagging的使用说明。

其中：A是训练数据集，其类型是dataset。

CLASSF是基学习器的训练算法，该工具箱中涵盖多种分类器的算法，比较常用的有nmc（最近邻）、treec（决策树）等等。

N是学习器数目，即要训练多少个分类器做最终的集成，默认值100.

ACLASSF是指集成规则，可选的参数有meanc\prodc\medianc\maxc\minc\votec\，其中默认参数为meanc，但是比较常用的规则还是votec投票法

T是指训练集成规则的参数，像投票法是不需要训练的，因为默认该值为[]。

以上内容是直接从工具箱中bagging方法的应用角度来介绍，接下来要从原理方面讲述。

Bagging算法的全称应该是Bootstrap aggregating。

它有两个步骤组成：Bootstrap和aggregating。

所谓基分类器，指的是参与集成的个体分类器，某一种分类算法加以实现后（可以理解为一个函数，输入是特征数据，输出是判断的类别）就是一个分类器。

Boostrap方法是有放回的抽样，即从初始训练集中有放回可重复的随机取出N条数据（这个值需要事先设定，可以是初始数据集的80%、70%都随意）组成新的数据集，假如我们现在要训练100个分类器，那么就取出100组数据集分别进行训练，即要训练100轮。因为每次训练的数据集是不同的，所以训练出的分类器也存在差异。这样我们就得到了100个预测函数序列h1，…，h100。

另一个步骤就是集成，通常用的是投票法。

因此这里主要记住的就是Bagging中分类器的生成方式，当然训练分类器的算法往往有稳定和不稳定两类，通常是使用不稳定的学习算法，因为不稳定的学习算法可以因为数据集微小的变化而导致结果的改变，因此有助于我们生成若干具有一定差异性的分类器集合。

一个例子：

在二维数据中，使用不同的训练算法时的集成效果

clc,clear;

A=gendath([ ]);

[C,D]=gendat(A,[ ]);

W1=baggingc(C,qdc);            %quadratic

W2=baggingc(C,ldc);             %linear

W3=baggingc(C,knnc);

W4=baggingc(C,treec);

disp([testc(D*W1), testc(D*W2), testc(D*W3), testc(D*W4)]);

scatterd(A);

plotc({W1,W2,W3,W4 });

（3）Boosting

该算法在模式识别工具箱中的使用方法为：

 [W,V,ALF] =  adaboostc(A,CLASSF,N,RULE,VERBOSE);

  INPUT

    A       Dataset

    CLASSF  Untrained weak classifier

    N       Number of classifiers to be trained

    RULE    Combining rule (default: weighted voting)

    VERBOSE Suppress progress report if  (default)

  OUTPUT

    W       Combined trained classifier

    V       Cell array of all classifiers

            Use VC = stacked(V) for combining

    ALF     Weights

其参数多数和baggingc很像：

A是训练数据集，其类型是dataset。

CLASSF是基学习器的训练算法。

N是学习器数目。

ACLASSF是指集成规则，其中默认参数为加权投票法。

Boosting主要是Adaboost（Adaptive Boosting），它与Bagging的不同在于他将权重赋予每个训练元组，生成基分类器的过程为迭代生成。每当训练生成一个分类器M（i）时要进行权重更新，使得M（i+1）更关注被M（i）分类错误的训练元组。最终提升整体集合的分类准确率，集成规则是加权投票，每个分类器投票的权重是其准确率的函数。

继续详细介绍的话，假设数据集D，共有d类。（X1，Y1）…（Xd，Yd），Yi是Xi的类标号，假设需要生成k的分类器。其步骤为：

1、对每个训练元组赋予相等的权重1/d。

2、for i=1：k

从D中进行有放回的抽样，组成大小为d的训练集Di，同一个元组可以被多次选择，而每个元组被选中的几率由权重决定。利用Di训练得到分类器Mi，然后使用Di作为测试集计算Mi的误差。然后根据误差调整权重。

当元组没有被正确分类时，则权重增加；反之权重减少。然后利用新的权重为下一轮训练分类器产生训练样本。使其更“关注”上一轮中错分的元组。

3、进行加权投票集成

一个例子：

clc,clear;

A=gendath([ ]);

[C,D]=gendat(A,[ ]);

[W1,V1,ALF1]=adaboostc(C,qdc,);            %quadratic

[W2,V2,ALF2]= adaboostc (C,ldc,);             %linear

disp([testc(D*W1), testc(D*W2)]);

scatterd(A);

plotc({W1,W2});

（3）Bagging与Boosting的差异

通过上述简单的介绍，可以看出这两种集成算法主要区别在于“加没加权”。Bagging的训练集是随机生成，分类器相互独立；而Boosting的分类器是迭代生成，更关注上一轮的错分元组。因此Bagging的各个预测函数可以并行生成；而Boosting只能顺序生成。因此对于像一些比较耗时的分类器训练算法（如神经网络等）如果使用Bagging可以极大地解约时间开销。

但是通过在大多数数据集的实验，Boosting的准确率多数会高于Bagging，但是也有极个别数据集使用Boosting反倒会退化。

本文没有对两种集成方法的背景知识做过多的介绍，主要是结合模式识别工具箱的应用来简单作为了解使用，如有不准确的地方，还望多加指正。

模式识别与机器学习—bagging与boosting的更多相关文章

[机器学习]Bagging and Boosting
Bagging 和 Boosting 都是一种将几个弱分类器(可以理解为分类或者回归能力不好的分类器)按照一定规则组合在一起从而变成一个强分类器.但二者的组合方式有所区别. 一.Bagging Bag ...
机器学习——集成学习(Bagging、Boosting、Stacking)
1 前言集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器.弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(errorrate < ...
机器学习基础—集成学习Bagging 和 Boosting
集成学习就是不断的通过数据子集形成新的规则,然后将这些规则合并.bagging和boosting都属于集成学习.集成学习的核心思想是通过训练形成多个分类器,然后将这些分类器进行组合. 所以归结为(1 ...
Bagging和Boosting 概念及区别
Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法.即将弱分类器组装成强分类器的方法. 首先介绍Boot ...
以Random Forests和AdaBoost为例介绍下bagging和boosting方法
我们学过决策树.朴素贝叶斯.SVM.K近邻等分类器算法,他们各有优缺点:自然的,我们可以将这些分类器组合起来成为一个性能更好的分类器,这种组合结果被称为集成方法 (ensemble method)或 ...
随机森林（Random Forest），决策树，bagging， boosting（Adaptive Boosting，GBDT）
http://www.cnblogs.com/maybe2030/p/4585705.html 阅读目录 1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 ...
常用的模型集成方法介绍：bagging、boosting 、stacking
本文介绍了集成学习的各种概念,并给出了一些必要的关键信息,以便读者能很好地理解和使用相关方法,并且能够在有需要的时候设计出合适的解决方案. 本文将讨论一些众所周知的概念,如自助法.自助聚合(baggi ...
[白话解析] 通俗解析集成学习之bagging，boosting & 随机森林
[白话解析] 通俗解析集成学习之bagging,boosting & 随机森林 0x00 摘要本文将尽量使用通俗易懂的方式,尽可能不涉及数学公式,而是从整体的思路上来看,运用感性直觉的思考来 ...
Bagging和Boosting的介绍及对比
"团结就是力量"这句老话很好地表达了机器学习领域中强大「集成方法」的基本思想.总的来说,许多机器学习竞赛(包括 Kaggle)中最优秀的解决方案所采用的集成方法都建立在一个这样的假 ...

随机推荐

使用bootstrap table小记（表格组件）
前言新的一年悄然到来,生活依旧.最近一周大热的赵雷风,一首<成都>,一首<理想>再次把民谣展示在国人面前.歌词着实写的不错. 理想,你今年几岁你总是诱惑着年轻的朋友你总是 ...
安装和配置Symfony
为了简化创建新项目的过程,Symfony提供一个安装程序. 安装Symfony Installer 使用Symfony Installer是创建新的Symfony项目的唯一推荐方式,这个install ...
groovy regex groups(groovy正则表达式组)
先看一个java正则表达式的例子. import java.util.regex.Matcher; import java.util.regex.Pattern; public class TestM ...
C# winform程序免安装.net framework在XP/win7/win10环境运行！
前文: 首先感谢群里的大神宇内流云提供的anyexec for windows版本. 经过本人搭建虚拟机在xp环境使用anyexec运行winfrom程序后,测试通过,如下是用的xp运行winfr ...
Servlet支持上传多张图片
首先前端的表单是这个形式: <form target="_self" method="post" action="fileUploadMult ...
MySQL优化-一、缓存优化
body { font-family: Helvetica, arial, sans-serif; font-size: 14px; line-height: 1.6; padding-top: 10 ...
Spring框架---Spring入门
Spring入门为了能更好的理解先讲一些有的没的的东西: 什么是Spring Spring是分层的JavaSE/EE full-stack(一站式) 轻量级开源框架分层 SUN提供的EE的三层结构 ...
Spring RESTful + Redis全注解实现恶意登录保护机制
好久没更博了... 最近看了个真正全注解实现的 SpringMVC 博客,感觉很不错,终于可以彻底丢弃 web.xml 了.其实这玩意也是老东西了,丢弃 web.xml,是基于 5.6年前发布的 Se ...
Java程序员入门：Java程序员面试失败的5大原因
1 说得太少尤其是那些开放式的问题,如"请介绍下你自己"或"请讲一下你曾经解决过的复杂问题".面试官会通过你对这些技术和非技术问题的回答来评估你的激情.他们也 ...
Eclipse的Spring IDE插件的安装和使用
Spring IDE是Spring官方网站推荐的Eclipse插件,可提供在研发Spring时对Bean定义文件进行验证并以可视化的方式查看各个Bean之间的依赖关系等. 安装使用Eclipse M ...

模式识别与机器学习—bagging与boosting

模式识别与机器学习—bagging与boosting的更多相关文章

随机推荐

热门专题