数据挖掘算法学习（八）Adaboost算法

本文不定期更新。原创文章，转载请附上链接http://blog.csdn.net/iemyxie/article/details/40423907 谢谢

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器（弱分类器）。然后把这些弱分类器集合起来。构成一个更强的终于分类器（强分类器）。Adaboost算法本身是通过改变数据分布来实现的，它依据每次训练集之中每一个样本的分类是否正确，以及上次的整体分类的准确率，来确定每一个样本的权值。

将改动过权值的新数据集送给下层分类器进行训练，最后将每次得到的分类器最后融合起来，作为最后的决策分类器。

算法概述

1、先通过对N个训练样本的学习得到第一个弱分类器；

2、将分错的样本和其它的新数据一起构成一个新的N个的训练样本，通过对这个样本的学习得到第二个弱分类器；

3、将1和2都分错了的样本加上其它的新样本构成还有一个新的N个的训练样本，通过对这个样本的学习得到第三个弱分类器

4、终于经过提升的强分类器。即某个数据被分为哪一类要由各分类器权值决定。

与boosting算法比較

1. 使用加权后选取的训练数据取代随机选取的训练样本，这样将训练的焦点集中在比較难分的训练数据样本上。　　

2. 将弱分类器联合起来，使用加权的投票机制取代平均投票机制。

让分类效果好的弱分类器具有较大的权重，而分类效果差的分类器具有较小的权重。

与Boosting算法不同的是，AdaBoost算法不须要预先知道弱学习算法学习正确率的下限即弱分类器的误差，而且最后得到的强分类器的分类精度依赖于全部弱分类器的分类精度。这样能够深入挖掘弱分类器算法的能力。

算法步骤

1. 给定训练样本集S。当中X和Y分别相应于正例样本和负例样本。T为训练的最大循环次数；

2. 初始化样本权重为1/n 。即为训练样本的初始概率分布；　　

3. 第一次迭代：(1)训练样本的概率分布相当，训练弱分类器;(2)计算弱分类器的错误率;(3)选取合适阈值。使得误差最小；(4)更新样本权重；　　

经T次循环后，得到T个弱分类器。按更新的权重叠加，终于得到的强分类器。

详细过程例如以下：

一.样本

Given: m examples (x1, y1), …, (xm, ym)

where xiX, yiY={-1, +1}

xi表示X中第i个元素。

yi表示与xi相应元素的属性值，+1表示xi属于某个分类，

-1表示xi不属于某个分类

二.初始化训练样本xi的权重D(i) :i=1,……。m;

(1).若正负样本数目一致，D1(i) = 1/m

(2).若正负样本数目m+, m-则正样本D1(i) = 1/m+，

负样本D1(i) = 1/m-

实例具体解释

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaWVteXhpZQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">

图中“+”和“-”表示两种类别。我们用水平或者垂直的直线作为分类器进行分类。

算法開始前默认均匀分布D，共10个样本，故每一个样本权值为0.1.

第一次分类：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaWVteXhpZQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">

第一次划分有3个点划分错误。依据误差表达式

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaWVteXhpZQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt=""> 计算可得e1=（0.1+0.1+0.1）/1.0=0.3

分类器权重：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaWVteXhpZQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">

然后依据算法把错分点的权值变大。对于正确分类的7个点，权值不变。仍为0.1,对于错分的3个点，权值为：

D1=D0*(1-e1)/e1=0.1*(1-0.3)/0.3=0.2333

第二次分类：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaWVteXhpZQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">

如图所看到的，有3个"-"分类错误。上轮分类后权值之和为：0.1*7+0.2333*3=1.3990

分类误差：e2=0.1*3/1.3990=0.2144

分类器权重a2=0.6493

错分的3个点权值为：D2=0.1*（1-0.2144）/0.2144=0.3664

第三次分类：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaWVteXhpZQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">

同上步骤可求得：e3=0.1365 ；a3=0.9223；D3=0.6326

终于的强分类器即为三个弱分类器的叠加，例如以下图所看到的：

每一个区域是属于哪个属性，由这个区域所在分类器的权值综合决定。

比方左下角的区域，属于蓝色分类区的权重为h1 中的0.42和h2 中的0.65，其和为1.07；属于淡红色分类区域的权重为h3 中的0.92；属于淡红色分类区的权重小于属于蓝色分类区的权值。因此左下角属于蓝色分类区。因此能够得到整合的结果如上图所看到的。从结果图中看，即使是简单的分类器。组合起来也能获得非常好的分类效果。

分类器权值调整的原因

由公式能够看到，权值是关于误差的表达式。每次迭代都会提高错分点的权值，当下一次分类器再次错分这些点之后，会提高总体的错误率，这样就导致分类器权值变小。进而导致这个分类器在终于的混合分类器中的权值变小，也就是说，Adaboost算法让正确率高的分类器占总体的权值更高。让正确率低的分类器权值更低，从而提高终于分类器的正确率。

算法优缺点

长处

1)Adaboost是一种有非常高精度的分类器

2)能够使用各种方法构建子分类器,Adaboost算法提供的是框架

3)当使用简单分类器时，计算出的结果是能够理解的。并且弱分类器构造极其简单

4)简单。不用做特征筛选

5)不用操心overfitting(过度拟合)

缺点

1)easy受到噪声干扰，这也是大部分算法的缺点

2)训练时间过长

3)运行效果依赖于弱分类器的选择

SQL实现

#開始迭代

while(@i<=3) do

	set @evalue=0,@temp=0;

	set @flag1=0,@flag2=0,@flag3=0,@flag4=0;

	set @las=concat('d',@i-1);

	set @cur=concat('d',@i);

	set @a=concat('select hx,hy into @hx,@hy from hea where id = ',@i);

	prepare stmt1 from @a;

	execute stmt1;

	set @aa=concat('update adaset set ',@cur,' = ',@las);

	prepare stmt111 from @aa;

	execute stmt111;

#1.分类器为垂直x轴直线

	if (@hy=0) then

	#处理分类1

		set @b=concat('select count(class) into @l_1 from adaset where class=1 and x < ',@hx);

		prepare stmt2 from @b;

		execute stmt2;

		set @c=concat('select count(class) into @l_2 from adaset where class=-1 and x < ',@hx);

		prepare stmt3 from @c;

		execute stmt3;

		if(@l_1=0 and @l_2!=0) then

		set @clas=concat('update hea set l=-1 where id = ',@i);

		prepare stmt28 from @clas;

		execute stmt28;

		end if;

		if(@l_1!=0 and @l_2 =0) then

			set @clas=concat('update hea set l=1 where id = ',@i);

			prepare stmt29 from @clas;

			execute stmt29;

		end if;

		set @weight=concat('d',@i-1);

		if (@l_1 !=0 and @l_2 !=0 and @l_1>@l_2) then #@l_2是错分点

			set @d=concat('select sum(',@weight,') into @temp from adaset where class=-1 and x < ',@hx);

			prepare stmt4 from @d;

			execute stmt4;

			set @evalue=@evalue+@temp;

			set @flag1=1;

			set @clas=concat('update hea set l=1 where id = ',@i);

			prepare stmt20 from @clas;

			execute stmt20;

		end if;

		if (@l_1 !=0 and @l_2 !=0 and @l_1<@l_2) then #@l_1是错分点

			set @d=concat('select sum(',@weight,') into @temp from adaset where class=1 and x < ',@hx);

			prepare stmt5 from @d;

			execute stmt5;

			set @evalue=@evalue+@temp;

			set @flag2=1;

			set @clas=concat('update hea set l=-1 where id = ',@i);

			prepare stmt21 from @clas;

			execute stmt21;

		end if;

#总权值&误差

	set @h=concat('select sum(',@weight,') into @temp from adaset');

	prepare stmt10 from @h;

	execute stmt10;

	set @evalue = round(@evalue/@temp,4);

	set @avalue = round((0.5*ln((1-@evalue)/@evalue)),4);

	set @eee=round((1-@evalue)/@evalue,4);

#更新误差e&如果权重a

	set @j=concat('update hea set e = ',@evalue,' ,a = ',@avalue,' where id = ',@i);

	prepare stmt11 from @j;

	execute stmt11;

#更新错分样本的权重

	if (@hy=0) then

		if (@flag1=1) then

			set @k=concat('update adaset set ',@cur,' = ',@las,'*',@eee,' where class=-1 and x < ',@hx);

			prepare stmt12 from @k;

			execute stmt12;

		end if;

		if (@flag2=1) then

			set @m=concat('update adaset set ',@cur,' = ',@las,'*',@eee,' where class=1 and x < ',@hx);

			prepare stmt13 from @m;

			execute stmt13;

		end if;

		if (@flag3=1) then

			set @n=concat('update adaset set ',@cur,' = ',@las,'*',@eee,' where class=-1 and x > ',@hx);

			prepare stmt14 from @n;

			execute stmt14;

		end if;

		if (@flag4=1) then

			set @o=concat('update adaset set ',@cur,' = ',@las,'*',@eee,' where class=1 and x > ',@hx);

			prepare stmt15 from @o;

			execute stmt15;

		end if;

	end if;

set @i=@i+1;

end while;

以上是博主近期用SQL实现的Adaboost算法的部分代码。数据库表以后整理一下再贴。

Ubuntu不稳定啊，死机两次了。

。编辑的博客都没了。

。累觉不爱。

。

个人疑问

上文中的缺点提到，Adaboost算法的效果依赖于弱分类器的选择，那么面对巨大的待分类数据时，怎样选择弱分类呢？有没有什么原则。博主依然在探索中。找到答案的话会在这里更新。

推荐资料：由Adaboost算法创始人Freund和Schapire写的关于Adaboost算法的文档，我已经上传。

原创文章。转载请原创文章，转载请附上链接http://blog.csdn.net/iemyxie/article/details/40423907 谢谢

数据挖掘算法学习（八）Adaboost算法的更多相关文章

集成学习值Adaboost算法原理和代码小结(转载)
在集成学习原理小结中,我们讲到了集成学习按照个体学习器之间是否存在依赖关系可以分为两类: 第一个是个体学习器之间存在强依赖关系: 另一类是个体学习器之间不存在强依赖关系. 前者的代表算法就是提升(bo ...
数据挖掘学习笔记--AdaBoost算法(一)
声明: 这篇笔记是自己对AdaBoost原理的一些理解,如果有错,还望指正,俯谢- 背景: AdaBoost算法,这个算法思路简单,但是论文真是各种晦涩啊-,以下是自己看了A Short Introd ...
集成学习之Adaboost算法原理小结
在集成学习原理小结中,我们讲到了集成学习按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之间存在强依赖关系,另一类是个体学习器之间不存在强依赖关系.前者的代表算法就是是boostin ...
集成学习之Adaboost算法原理
在boosting系列算法中,Adaboost是最著名的算法之一.Adaboost既可以用作分类,也可以用作回归. 1. boosting算法基本原理集成学习原理中,boosting系列算法的思想:
算法学习八皇后问题的递归实现 java版回溯思想
1.问题描述八皇后问题是一个以国际象棋为背景的问题:如何能够在 8×8 的国际象棋棋盘上放置八个皇后,使得任何一个皇后都无法直接吃掉其他的皇后?为了达到此目的,任两个皇后都不能处于同一条横行.纵行或 ...
# 机器学习算法总结-第六天(Adaboost算法)
SKlearn中的Adaboost使用主要调的参数:第一部分是对我们的Adaboost的框架进行调参, 第二部分是对我们选择的弱分类器进行调参. 使用 Adaboost 进行手写数字识别导入库,载 ...
【算法学习】老算法，新姿势，STL——Heap
“堆”是一个大家很熟悉的数据结构,它可以在\(O(log\;n)\)的时间内维护集合的极值. 这都是老套路了,具体的内部实现我也就不谈了. 我一般来说,都是用queue库中的priority_queu ...
04-02 AdaBoost算法
目录 AdaBoost算法一.AdaBoost算法学习目标二.AdaBoost算法详解 2.1 Boosting算法回顾 2.2 AdaBoost算法 2.3 AdaBoost算法目标函数优化三 ...
AdaBoost 算法原理及推导
AdaBoost(Adaptive Boosting):自适应提升方法. 1.AdaBoost算法介绍 AdaBoost是Boosting方法中最优代表性的提升算法.该方法通过在每轮降低分对样例的权重 ...
Adaboost算法流程及示例
1. Boosting提升方法(源自统计学习方法) 提升方法是一种常用的统计学习方法,应用十分广泛且有效.在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的 ...

随机推荐

oracle 手动配置服务器端和客户端
1.oracle 服务器端配置将oracle安装完成之后,在Net Configuration Assistant配置 1.监听程序配置先找到Net Configuration Assistant ...
TASKCTL5.0日志乱码解决方案
从大学毕业到现在,做了不少银行外包项目,数据类的项目基本都用到taskctl调度产品,一直习以为然,觉得调度产品都应该是这样的,所以也没觉得怎样,直到后来有两个外包项目没用taskctl调度工具,要接 ...
HDU_3732_(多重背包)
Ahui Writes Word Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) ...
安卓app测试之Monkey测试
一.Monkey特点 1.运行时机:一般是产品稳定后首轮功能测试完成的夜间进行 2.需要知道packageName 3.目的:主要测试产品是否存在崩溃问题和ANR问题. 二.获取包名的两个方法首先 ...
Find The Multiple POJ - 1426 （BFS）
题目大意给定一个整数,寻找一个只有0,1构成的十进制数使得这个数能够整除这个整数解法直接bfs第一位放入1,之后每一位放入1或者0 代码 #include <iostream> #i ...
linux内核开发程序风格
变量命名法这里是linux不是windows,所以匈牙利命名法是不允许使用的,在内核中,局部变量只要可以明确表达自己的意思,可以使用idx,i这种名字的id, 全局函数和变量需要有表达性的名字例如g ...
java 十三周总结
noip模拟赛圆桌游戏
[问题描述] 有一种圆桌游戏是这样进行的:n个人围着圆桌坐成一圈,按顺时针顺序依次标号为1号至n号.对1<i<n的i来说,i号的左边是i+1号,右边是i-1号.1号的右边是n号,n号的左边 ...
JRobin绘制指定时间段的流量图
http://www.micmiu.com/enterprise-app/snmp/jrobin-graph-rpn/
夜话JAVA设计模式之适配器模式(adapter pattern)
适配器模式:将一个类的接口,转换成客户期望的另一个接口,让不兼容的接口变成兼容. 1.类适配器模式:通过多重继承来实现适配器功能.多重继承就是先继承要转换的实现类,再实现被转换的接口. 2.对象适配器 ...

数据挖掘算法学习（八）Adaboost算法

数据挖掘算法学习（八）Adaboost算法的更多相关文章

随机推荐

热门专题