AdaBoost 算法原理及推导

AdaBoost（Adaptive Boosting）：自适应提升方法。

1、AdaBoost算法介绍

AdaBoost是Boosting方法中最优代表性的提升算法。该方法通过在每轮降低分对样例的权重，增加分错样例的权重，使得分类器在迭代过程中逐步改进，最终将所有分类器线性组合得到最终分类器，Boost算法框架如下图所示：

图1.1 Boost分类框架（来自PRML）

2、AdaBoost算法过程：

1）初始化每个训练样例的权值，共N个训练样例。

2）共进行M轮学习，第m轮学习过程如下：

A）使用权值分布为Wm的训练样例学习得到基分类器Gm。

B）计算上一步得到的基分类器的误差率：（此公式参考PRML，其余的来自统计学习方法）

C）计算Gm前面的权重系数：

D）更新训练样例的权重系数，

E）重复A）到D）。得到一系列的权重参数am和基分类器Gm

4）将上一步得到的基分类器根据权重参数线性组合，得到最终分类器：

3、算法中的两个权重分析:

1）关于基分类器权重的分析

上面计算的am表示基分类器在最终的分类器中所占的权重，am的计算根据em而得到，由于每个基分类器的分类性能要好于随机分类器，故而误差率em<0.5.（对二分类问题）

当em<0.5时，am>0且am随着em的减小而增大，所以，分类误差率越小的基分类器在最终的分类器中所占的权重越大。

注：此处的所有am之后并不为1。

2）训练样例的权重分析

根据公式可知，样例分对和分错，权重相差倍（统计学习方法上此公式有误）。

由于am>0，故而exp(-am)<1，当样例被基本分类器正确分类时，其权重在减小，反之权重在增大。

通过增大错分样例的权重，让此样例在下一轮的分类器中被重点关注，通过这种方式，慢慢减小了分错样例数目，使得基分类器性能逐步改善。

4、训练误差分析

关于误差上界有以下不等式，此不等式说明了Adaboost的训练误差是以指数的速度下降的，

推导过程用到的公式有：

具体推导过程请看统计学习方法课本！

5、AdaBoost算法推导过程

AdaBoost算法使用加法模型，损失函数为指数函数，学习算法使用前向分步算法。

其中加法模型为：

损失函数为指数函数：

我们的目标是要最小化损失函数，通过最小化损失函数来得到模型中所需的参数。而在Adaboost算法中，每一轮都需要更新样例的权重参数，故而在每一轮的迭代中需要将损失函数极小化，然后据此得到每个样例的权重更新参数。这样在每轮的迭代过程中只需要将当前基函数在训练集上的损失函数最小即可。

现在我们需要通过极小化上面的损失函数，得到a,G。

设：

于是有：

为了方便下面推导，我们将：

这样，我们就有：

正式推导过程如下：

设：

对g(a)求导得：

令，得到：

其中，在计算过程中用到的e_m为：

由于，所以得到新的损失为：

最终的w_mi通过规范化得到：

其中规范化因子为：

参考文献：

[1] 李航，统计学习方法。

[2] Bishop, Pattern Recognition and Machine Learning

AdaBoost 算法原理及推导的更多相关文章

集成学习值Adaboost算法原理和代码小结(转载)
在集成学习原理小结中,我们讲到了集成学习按照个体学习器之间是否存在依赖关系可以分为两类: 第一个是个体学习器之间存在强依赖关系: 另一类是个体学习器之间不存在强依赖关系. 前者的代表算法就是提升(bo ...
AdaBoost算法原理简介
AdaBoost算法原理 AdaBoost算法针对不同的训练集训练同一个基本分类器(弱分类器),然后把这些在不同训练集上得到的分类器集合起来,构成一个更强的最终的分类器(强分类器).理论证明,只要每个 ...
集成学习之Adaboost算法原理
在boosting系列算法中,Adaboost是最著名的算法之一.Adaboost既可以用作分类,也可以用作回归. 1. boosting算法基本原理集成学习原理中,boosting系列算法的思想:
【机器学习】算法原理详细推导与实现(六):k-means算法
[机器学习]算法原理详细推导与实现(六):k-means算法之前几个章节都是介绍有监督学习,这个章解介绍无监督学习,这是一个被称为k-means的聚类算法,也叫做k均值聚类算法. 聚类算法在讲监督 ...
集成学习之Adaboost算法原理小结
在集成学习原理小结中,我们讲到了集成学习按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之间存在强依赖关系,另一类是个体学习器之间不存在强依赖关系.前者的代表算法就是是boostin ...
机器学习之Adaboost算法原理
转自:http://www.cnblogs.com/pinard/p/6133937.html 在集成学习原理小结中,我们讲到了集成学习按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习 ...
基于单层决策树的AdaBoost算法原理+python实现
这里整理一下实验课实现的基于单层决策树的弱分类器的AdaBoost算法. 由于是初学,实验课在找资料的时候看到别人的代码中有太多英文的缩写,不容易看懂,而且还要同时看代码实现的细节.算法的原理什么的, ...
AdaBoost算法原理及OpenCV实例
备注:OpenCV版本 2.4.10 在数据的挖掘和分析中,最基本和首要的任务是对数据进行分类,解决这个问题的常用方法是机器学习技术.通过使用已知实例集合中所有样本的属性值作为机器学习算法的训练集,导 ...
强化学习-学习笔记7 | Sarsa算法原理与推导
Sarsa算法是 TD算法的一种,之前没有严谨推导过 TD 算法,这一篇就来从数学的角度推导一下 Sarsa 算法.注意,这部分属于 TD算法的延申. 7. Sarsa算法 7.1 推导 TD ta ...

随机推荐

HDU 1814 Peaceful Commission
2-SAT,输出字典序最小的解,白书模板. //TwoSAT输出字典序最小的解的模板 //注意:0,1是一组,1,2是一组..... #include<cstdio> #include&l ...
Oracle新建用户赋只读某几张表的权限
create user JSETI_WZQ identified by abcdef; -- 假设abcdef是密码 grant connect,resource to JSETI_WZQ; gran ...
编译filezilla
编译zilla的时候,需要用到与mysql连接的地方(这里先忽略zila的编译) VC听过mysql connector c++, 下载了1.1.3版本,然后飞安装包,之后从官网上下载boost 把库 ...
第13章 Swing程序组件----常用布局管理器
在Swing中,每个组件在容器中都有一个具体的位置和大小,而在容器中摆放各种组件时很难判断其具体位置和大小.布局管理器提供了Swing组件安排.展示在容器中的方法及基本的布局功能. Swing提供的常 ...
Android面试经验2
1,android如何更换主题: 2,如何设计软件: 3,代码中用到那些设计模式: 4,c++和java有那些不同: 一,指针: 二,多重继承: 三,数据类型和类: 四,自动内存管理: 五,操作符重载 ...
Divisor Summation_
Divisor Summation Problem Description Give a natural number n (1 <= n <= 500000), please tell ...
一道变态的js题
一道腾讯js面试题题目如下: f = function() {return true;}; g = function() {return false;}; (function() { if (g() ...
JS对象引用
对象和函数都是引用的关系(改变后者会改变前者) 但是下面这个列子情况不一样了.刚开始的时候 B 引用了 A的地址,后来B又重新赋值,新占了一个地址,A B俩的关系已经脱离. 那么有的时候,我们只有 ...
配置jboss4.2.3GA启用SSL
转帖保存配置jboss的HTTP请求走SSL(HTTPS协议) l 生成keystore 文件用keytool生成server.keystore文件: 进入命令行 C:\Docum ...
关于配置Tomcat的URIEncoding
遇到的问题: 程序需要发送http GET请求到服务器,请求的参数中包含了中文字符.程序中参数为UTF-8格式,且经过了UTF-8 URL编码再发送.使用的tomcat服务器,但服务器端后台程序中取到 ...

AdaBoost 算法原理及推导

AdaBoost 算法原理及推导的更多相关文章

随机推荐

热门专题