adaboost python实现小样例

元算法是对其他算法进行组合的一种方式。
单层决策树实际上是一个单节点的决策树。
adaboost
优点：泛化错误率低，易编码，可以应用在大部分分类器上，无参数调整
缺点：对离群点敏感
适用数据类型：数值型和标称型数据
bagging：基于数据随机重抽样的分类器构建方法
自举汇聚法，也称为bagging方法，是在从原始数据集选择S次后得到的S个新数据集的一种技术。
新数据集和原数据集的大小相等。每个数据集都是通过在原始数据集中随机选择一个样本来进行替换得到的。
这里的替换就意味着可以多次选择同一个样本。这一性质允许新数据集中可以有重复的值，而原始数据集的
某些值在新集合中则不再出现。
在S个数据集建好之后，将某个学习算法分别作用于每个数据集就得到了s个分类器。当我们要对新数据进行
分类时，就可以应用这s个分类器进行分类。与此同时，选择分类器投票结果中最多的类别作为最后的分类结果。
boosting是一种与bagging很类似的技术。不论是在boosting还是bagging当中，所使用的多个分类器的类型都是
一致的。但是在前者当中，不同的分类器是通过串行训练而获得的，每个新分类器都根据已训练出的分类器的性
能进行训练。boosting是通过集中关注被已有分类器错分的那些数据来获得新的分类器
由于boosting分类器的结果是基于所有分类器的加权求和结果的，因此boosting与bagging不太一样，bagging中的
分类器权重是相等的，而boosting中的分类器权重并不相等，每个权重代表的是其对应分类器在上一轮迭代中的成功度。
Adaboost的一般流程
（1）收集数据：可以适用任意方法
（2）准备数据：依赖于所使用的弱分类器类型，本章使用的是单层决策树，这种分类器可以处理任何数据类型。
当然也可以使用任意分类器作为弱分类器，第2章到第6章中的任一分类器都可以充当弱分类器。作为弱分类器，简单分类器的效果更好。
（3）分析数据：可以使用任意方法
（4）训练算法：AdaBoost的大部分时间都用在训练上，分类器将多次在同一数据集上训练弱分类器
（5）测试算法：计算分类的错误率
（6）使用算法：同SVM一样，AdaBoost预测两个类别中的一个。如果想把它应用到多个类别的场合，
那么就要像多类SVM中的做法一样对AdaBoost进行修改
弱分类器就是说在二分类下错误率会高于50%，而'强'分类器的错误率会低很多。
AdaBoost是adaptive boosting（自适应 boosting）的缩写，其运行过程如下：训练数据中的每个样本，并赋予其一个权重，
这些权重构成了向量D。一开始，这些权重都初始化称相等值。首先在训练数据上训练出一个弱分类器并计算该分类器的错
误率，然后在同一个数据集上再次训练弱分类器。在分类器的第二次训练当中，将会重新调整每个样本的权重，其中第一次
分对的样本的权重将会降低，而第一次分许哦的样本权重将会提高。为了从所有弱分类器中得到最终的分类结果，AdaBoost为
每一个分类器都分配了一个权重alpha，这些alpha值是基于每个弱分类器的错误率进行计算的。

 rom numpy import *

 def loadSimpData():

     datMat = matrix([[ 1. ,  2.1],

         [ 2. ,  1.1],

         [ 1.3,  1. ],

         [ 1. ,  1. ],

         [ 2. ,  1. ]])

     classLabels = [1.0, 1.0, -1.0, -1.0, 1.0]

     return datMat,classLabels

 '''

 接下来构造单层决策树。第一个函数将用于测试是否有某个值小于或大于我们正在测试的阈值。

 第二个函数则更加复杂一些，它会在一个加权数据集中循环，并找到具有最低错误率的单层决策树。

 这个程序的伪代码看起来大致如下：

 将最小错误率minError设为+∞

 对数据集中的每一个特征（第一层循环）：

     对每个步长（第二层循环）：

         对每个不等号（第三层循环）：

             建立一颗单层决策树并利用加权数据集对它进行测试

             如果错误率低于minError，则将当前单层决策树设为最佳单层决策树

 返回最佳单层决策树

 '''

 def stumpClassify(dataMatrix, dimen, threshVal, threshIneq):  # just classify the data

     retArray = ones((shape(dataMatrix)[0], 1))

     if threshIneq == 'lt':

         retArray[dataMatrix[:, dimen] <= threshVal] = -1.0

     else:

         retArray[dataMatrix[:, dimen] > threshVal] = -1.0

     return retArray

 def buildStump(dataArr, classLabels, D):

     dataMatrix = mat(dataArr);

     labelMat = mat(classLabels).T

     m, n = shape(dataMatrix)

     numSteps = 10.0;

     bestStump = {};

     bestClasEst = mat(zeros((m, 1)))

     minError = inf  # init error sum, to +infinity

     for i in range(n):  # loop over all dimensions

         rangeMin = dataMatrix[:, i].min();

         rangeMax = dataMatrix[:, i].max();

         stepSize = (rangeMax - rangeMin) / numSteps

         for j in range(-1, int(numSteps) + 1):  # loop over all range in current dimension

             for inequal in ['lt', 'gt']:  # go over less than and greater than

                 threshVal = (rangeMin + float(j) * stepSize)

                 predictedVals = stumpClassify(dataMatrix, i, threshVal,

                                               inequal)  # call stump classify with i, j, lessThan

                 errArr = mat(ones((m, 1)))

                 errArr[predictedVals == labelMat] = 0

                 weightedError = D.T * errArr  # calc total error multiplied by D

                 # print "split: dim %d, thresh %.2f, thresh ineqal: %s, the weighted error is %.3f" % (i, threshVal, inequal, weightedError)

                 if weightedError < minError:

                     minError = weightedError

                     bestClasEst = predictedVals.copy()

                     bestStump['dim'] = i

                     bestStump['thresh'] = threshVal

                     bestStump['ineq'] = inequal

     return bestStump, minError, bestClasEst

 '''

 完整AdaBoost算法的实现

 整个实现的伪代码如下：

 对每次迭代：

     利用buildStump（）函数找到最佳的单层决策树

     将最佳单层决策树加入到单层决策树数组

     计算alpha

     计算新的权重向量D

     更新累计类别的估计值

     如果错误率等于0.0，则退出循环

 '''

 def adaBoostTrainDS(dataArr,classLabels,numIt=40):

     weakClassArr = []

     m = shape(dataArr)[0]

     D = mat(ones((m,1))/m)   #init D to all equal

     aggClassEst = mat(zeros((m,1)))

     for i in range(numIt):

         bestStump,error,classEst = buildStump(dataArr,classLabels,D)#build Stump

         #print "D:",D.T

         alpha = float(0.5*log((1.0-error)/max(error,1e-16)))#calc alpha, throw in max(error,eps) to account for error=0

         bestStump['alpha'] = alpha

         weakClassArr.append(bestStump)                  #store Stump Params in Array

         #print "classEst: ",classEst.T

         expon = multiply(-1*alpha*mat(classLabels).T,classEst) #exponent for D calc, getting messy

         D = multiply(D,exp(expon))                              #Calc New D for next iteration

         D = D/D.sum()

         #calc training error of all classifiers, if this is 0 quit for loop early (use break)

         aggClassEst += alpha*classEst

         #print "aggClassEst: ",aggClassEst.T

         aggErrors = multiply(sign(aggClassEst) != mat(classLabels).T,ones((m,1)))

         errorRate = aggErrors.sum()/m

         print("total error: ",errorRate)

         if errorRate == 0.0: break

     return weakClassArr,aggClassEst

 def adaClassify(datToClass,classifierArr):

     dataMatrix = mat(datToClass)#do stuff similar to last aggClassEst in adaBoostTrainDS

     m = shape(dataMatrix)[0]

     aggClassEst = mat(zeros((m,1)))

     for i in range(len(classifierArr)):

         classEst = stumpClassify(dataMatrix,classifierArr[i]['dim'],classifierArr[i]['thresh'],classifierArr[i]['ineq'])#call stump classify

         aggClassEst += classifierArr[i]['alpha']*classEst

         print(aggClassEst)

     return sign(aggClassEst)

 dataMat,classLabels=loadSimpData()

 D=mat(ones((5,1))/5)

 A,B,C=buildStump(dataMat,classLabels,D)

 classifierArr=adaBoostTrainDS(dataMat,classLabels,30)

 print(classifierArr)

 adaClassify([0,0],classifierArr)

小结：集成方法通过组合多个分类器的分类结果，获得了比简单的单分类器更好的分类结果。有一些利用不同分类器的继承方法，但是本章只介绍了那些利用同一类分类器的集成方法。

多个分类器组合可能会进一步凸显单分类器的不足，比如过拟合问题。如果分类器之间差别显著，那么多个分类器组合就可能会缓解这一问题。分类器之间的差别可以是算法本身或者是应用于算法上的数据的不同

本章介绍的两种集成方法是bagging和boosting。在bagging中，是通过随机抽样的替换方式，得到了与原始数据集规模一样的数据集。而boosting在bagging的思路上更进了一步，他在数据集上顺序应用了多个不同的分类器。另一个成功的继承方法就是随机森林，但是由于随机森林不如adaboost流行，所以本书并没有对他进行介绍

本章介绍了boosting方法中最流行的一个称为AdaBoost的算法。AdaBoost以弱学习器作为基分类器，并且输入数据，使其通过权重向量进行加权。在第一次迭代当中，所有数据都等权重。但是在后续的迭代当中，前次迭代中分错的数据的权重会增大。这种针对错误的调节能力正是Adaboost的长处。

本章以单层决策树作为弱学习器构建了AdaBoost分类器。实际上，AdaBoost函数可以应用于任意分类器，只要该分类器能够处理加权数据即可，AdaBoost算法十分强大，它能够快速处理其他分类器很难处理的数据集。

非均衡分类问题是指在分类器训练时正例数目和反例数目不相等（相差很大）。该问题在错分正例和反例不同时也存在。

本章介绍了通过过抽样和欠抽样方法来调节数据集中的正例和反例数目。另外一种可能更好的非均衡问题的处理方法，就是在训练分类器时将错误的代价考虑在内

adaboost python实现小样例的更多相关文章

决策树python实现小样例
我们经常使用决策树处理分类问题,近年来的调查表明决策树也是经常使用的数据挖掘算法K-NN可以完成多分类任务,但是它最大的缺点是无法给出数据的内在含义,决策树的主要优势在于数据形式非常容易理解决策树的优 ...
Logistic回归python实现小样例
假设现在有一些点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归.利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,依次进行分类.Lo ...
KNN算法python实现小样例
K近邻算法概述优点:精度高.对异常数据不敏感.无数据输入假定缺点:计算复杂度高.空间复杂度高适用数据范围:数值型和标称型工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签 ...
paip.输入法编程--英文ati化By音标原理与中文atiEn处理流程 python 代码为例
paip.输入法编程--英文ati化By音标原理与中文atiEn处理流程 python 代码为例 #---目标 1. en vs enPHati 2.en vs enPhAtiSmp 3.cn vs ...
Spring DI模式小样例
今儿跟同事讨论起来spring早期的,通过大篇幅xml的配置演变到今天annotation的过程,然后随手写了个小样例,感觉还不错,贴到这里留个纪念. 样例就是用JAVA API的方式, ...
SpringMVC+Spring+Hibernate的小样例
Strusts2+Spring+Hibernate尽管是主流的WEB开发框架,可是SpringMVC有越来越多的人使用了.确实也很好用.用得爽! 这里实现了一个SpringMVC+Spring+Hib ...
使用Dagger2创建的第一个小样例
将Dagger系列的咖啡壶样例再做一下简化,作为Dagger2的入门的第一个小样例. 场景描写叙述:有一个电水壶,它使用一个加热器来烧水.电水壶具备的功能有:開始加热(on方法),结束加热(off方法 ...
python 多线程中同步的小样例
#!/usr/bin/python # -*- coding: UTF-8 -*- # 在一个资源池中.获取资源 # Author: zhang # Date: 2015-7-27 import ti ...
CART树 python小样例
决策树不断将数据切分成小数据集,直到所有目标变量完全相同,或者数据不能再切分为止,决策时是一种贪心算法,它要在给定的时间内做出最佳选择,但并不关心能否达到最优树回归优点:可以对复杂和非线性的数据建 ...

随机推荐

WPF动画的几种模式
最近在用WPF做简单动画,以下是几点经验总结: 1. 使用DispatcherTimer做动画 VB6的年代大家就用Timer做动画了,不用多解释,这个DispatcherTimer和本身的Timer ...
命名空间namespace、smarty使用（视图分离，MVC）、smarty模板语法、smarty缓存、MVC模式
一.命名空间:namespace 命名空间可以理解为逻辑上的使用,为了防止重名 namespace :关键字加载:require_once();//加载一次 include_once() 申明命名 ...
python小游戏之贪吃蛇
本程序需要安装pygame,请自行百度安装...... 废话不多说,直接上代码 import pygame,sys,time,random from pygame.locals import * # ...
uvm_regex——DPI在UVM中的实现（三）
UVM的正则表达是在uvm_regex.cc 和uvm_regex.svh 中实现的,uvm_regex.svh实现UVM的正则表达式的源代码如下: `ifndef UVM_REGEX_NO_DPI ...
django ORM 简单示例简绍
简单 models 操作 class Host(models.Model): nid = models.AutoField(primary_key=True) #Nid为主键 hostname = m ...
捷宇高拍仪XY530 网页集成总结
应甲方要求,需要把高拍仪集成到B/S系统中来,在集成过程中遇到的几点问题做为总结,以备查找. 1.甲方送来的高拍仪是淘宝上买来的,型号是XY530,功能非常简单,成像效果也很一般.如果没有其它要求,可 ...
SqlServer Alwayson 搭建排错记录（二）
下面记录下建立好alwayson可用性组后,向可用性组内添加数据库出现过的问题及解决方法一.数据库未处于恢复状态将数据库联接到可用性组的时候报错: 数据库“XXXX”未处于恢复状态,而此状态是镜像 ...
推荐一个VS2015 插件 Favorite Documents
随着解决方案越来越庞大,查找某个文件变的非常费神,考眼力有了这个工具我们可以将常用的几个文件或文件夹添加到收藏夹中,随时展开双击即可到达收藏位置从视图>其他窗口中打开安装在Vi ...
前端知识体系之CSS及其预处理器SASS/LESS
如果你是个前端设计师,很多时候我们都在写CSS,CSS是定义页面样式的脚本,并不是一种编程语言,只是一行行单纯的描述页面元素的样子,如果对英语熟练的话,它像说话一样简单,这里举个简单的例子: body ...
【51nod1815】调查任务（Tarjan+拓扑）
点此看题面大致题意:有\(N\)个城市由\(M\)条单向道路(图不一定联通),每个城市有一个发达程度\(a[i]\),要求你求出首都\(S\)到城市\(i\)的一条路径上的两个不同城市\(x,y\) ...

adaboost python实现小样例

adaboost python实现小样例的更多相关文章

随机推荐

热门专题