利用AdaBoost元算法提高分类性能

当做重要决定时，大家可能都会吸取多个专家而不只是一个人的意见。机器学习处理问题时又何尝不是如此？这就是元算法背后的思路。元算法是对其他算法进行组合的一种方式。

自举汇聚法（bootstrap aggregating），也称为bagging方法，是从原始数据集选择S次后得到S个新数据集的一种技术。新数据集和原数据集的大小相等。每个数据集都是通过在原始数据集中随机选择一个样本来进行替换而得到的。在S个数据集建好之后，将某个学习算法分别作用于每个数据集就得到了S个分类器。当我们要对新数据进行分类时，就可以应用这S个分类器进行分类。与此同时，选择分类器投票结果中最多的类别作为最后的分类结果。

Boosting是一种与bagging类似的技术，所使用的多个分类器的类型都是一致的。在boosting技术中，不同的分类器是通过串行训练而获得的，每个新分类器都根据已训练出的分类器的性能来进行训练，boosting是通过集中关注被已有分类器错分的哪些数据来获得新的分类器。

AdaBoost是boosting方法中最流行的一种元算法。

AdaBoost算法：

优点：泛华错误率低，易编码，可以应用在大部分分类器上，无参数调整。

缺点：对离群点敏感。

适用数据类型：数值型和标称型数据。

AdaBoost是adaptive boosting（自适应boosting）的缩写，其运行过程如下：

训练数据中的每个样本，并赋予其一个权重，这些权重构成了向量D。一开始，这些权重都初始化成相等值。首先在训练数据上训练出一个弱分类器并计算该分类器的错误率，然后在同一数据集上再次训练弱分类器。在分类器的第二次训练当中，将会重新调整每个样本的权重，其中第一次分对的样本的权重将会降低，而第一次分错的样本的权重将会提高。为了从所有弱分类器中得到最终的分类结果，AdaBoost为每个分类器都分配了一个权重值alpha，这些alpha值是基于每个弱分类器的错误率进行计算的。

错误率 =(未正确分类的样本数目)/(所有样本数目)

alpha = 1/2 * ln((1-错误率)/错误率)

权重更新公式：

如果某个样本被正确分类，那么该样本的权重更改为：

如果某个样本被错误分类，那么样本的权重更改为：

计算出D之后，Adaboost开始进行下一轮迭代。AdaBoost算法会不断地重复训练和调整权重的过程，直到训练错误率为0或者弱分类器的数目达到用于指定值为止。

基于单层决策树构建弱分类器，单层决策树是一种简单的决策树，它仅基于单个特征来做决策，只有一次分裂过程。通过使用多颗单层决策树，就可以构建出一个能够对数据集完全正确分类的分类器。

单层决策树算法伪代码：

将最小错误率minError设为+∞

对数据集的每一个特征（第一层循环）

　　对每个步长（第二层循环）

　　　　对每个不等号（第三层循环）：

　　　　　　建立一颗单层决策树并利用加权数据集对它进行测试

　　　　　　如果错误率低于minError,则将当前单层决策树设为最佳单层决策树

返回最佳单层决策树

AdaBoost算法伪代码：

对每次迭代：

　　找出最佳的单层决策树

　　将最佳单层决策树加入到单层决策树数组

　　计算alpha

　　计算新的权重向量D

　　更新累计类别估计值

　　若果错误率为0.0，则退出循环

单层决策树算法代码实现：

def stumpClassify(dataMatrix,dimen,threshVal,threshIneq):#just classify the data

    retArray = ones((shape(dataMatrix)[0],1))

    if threshIneq == 'lt':

        retArray[dataMatrix[:,dimen] <= threshVal] = -1.0

    else:

        retArray[dataMatrix[:,dimen] > threshVal] = -1.0

    return retArray

def buildStump(dataArr,classLabels,D):

    dataMatrix = mat(dataArr); labelMat = mat(classLabels).T

    m,n = shape(dataMatrix)

    numSteps = 10.0; bestStump = {}; bestClasEst = mat(zeros((m,1)))

    minError = inf #init error sum, to +infinity

    for i in range(n):#loop over all dimensions

        rangeMin = dataMatrix[:,i].min(); rangeMax = dataMatrix[:,i].max();

        stepSize = (rangeMax-rangeMin)/numSteps

        for j in range(-1,int(numSteps)+1):#loop over all range in current dimension

            for inequal in ['lt', 'gt']: #go over less than and greater than

                threshVal = (rangeMin + float(j) * stepSize)

                predictedVals = stumpClassify(dataMatrix,i,threshVal,inequal)#call stump classify with i, j, lessThan

                errArr = mat(ones((m,1)))

                errArr[predictedVals == labelMat] = 0

                weightedError = D.T*errArr  #calc total error multiplied by D

                #print "split: dim %d, thresh %.2f, thresh ineqal: %s, the weighted error is %.3f" % (i, threshVal, inequal, weightedError)

                if weightedError < minError:

                    minError = weightedError

                    bestClasEst = predictedVals.copy()

                    bestStump['dim'] = i

                    bestStump['thresh'] = threshVal

                    bestStump['ineq'] = inequal

    return bestStump,minError,bestClasEst

AdaBoost算法代码实现：

def adaBoostTrainDS(dataArr, classLabels, numIt=40):

    weakClassArr = []

    m = shape(dataArr)[0]

    D = mat(ones((m,1))/m)

    aggClassEst = mat(zeros((m,1)))

    for i in range(numIt):

        bestStump, error, classEst = buildStump(dataArr,classLabels,D)

        print "D:", D.T

        alpha = float(0.5*log((1.0 - error)/max(error, 1e-16)))

        bestStump['alpha'] = alpha

        weakClassArr.append(bestStump)

        print "classEst: ", classEst.T

        expon = multiply(-1*alpha*mat(classLabels).T, classEst)

        D = multiply(D, exp(expon))

        D = D/D.sum()

        aggClassEst += alpha*classEst

        print "aggClassEst: ", aggClassEst.T

        aggErrors = multiply(sign(aggClassEst)!=mat(classLabels).T, ones((m,1)))

        errorRate = aggErrors.sum()/m

        print "total error:", errorRate, "\n"

        if errorRate == 0.0:

            break

    return weakClassArr

利用AdaBoost元算法提高分类性能的更多相关文章

机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想在使用某个特定的算法是, ...
【转载】机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
原文地址: https://www.cnblogs.com/steven-yang/p/5686473.html ------------------------------------------- ...
第七章：利用AdaBoost元算法提高分类性能
本章内容□ 组合相似的分类器来提髙分类性能□应用AdaBoost算法□ 处理非均衡分类问题
《机器学习实战第7章：利用AdaBoost元算法提高分类性能》
import numpy as np import matplotlib.pyplot as plt def loadSimpData(): dataMat = np.matrix([[1., 2.1 ...
监督学习——AdaBoost元算法提高分类性能
基于数据的多重抽样的分类器可以将不通的分类器组合起来,这种组合结果被称为集成方法(ensemble method)或者元算法(meta-algorithom) bagging : 基于数据随机抽样的 ...
使用 AdaBoost 元算法提高分类器性能
前言有人认为 AdaBoost 是最好的监督学习的方式. 某种程度上因为它是元算法,也就是说它会是几种分类器的组合.这就好比对于一个问题能够咨询多个 "专家" 的意见了. 组合的 ...
第九篇：使用 AdaBoost 元算法提高分类器性能
前言有人认为 AdaBoost 是最好的监督学习的方式. 某种程度上因为它是元算法,也就是说它会是几种分类器的组合.这就好比对于一个问题能够咨询多个 "专家" 的意见了. 组合的 ...
机器学习技法-AdaBoost元算法
课程地址:https://class.coursera.org/ntumltwo-002/lecture 重要!重要!重要~ 一.Adaptive Boosting 的动机通过组合多个弱分类器(hy ...
在Titanic数据集上应用AdaBoost元算法
一．AdaBoost 元算法的基本原理 AdaBoost是adaptive boosting的缩写,就是自适应boosting.元算法是对于其他算法进行组合的一种方式. 而boosting是在从原始数 ...

随机推荐

OpenCV 第一课(安装与配置)
OpenCV 第一课(安装与配置) win10,opencv-2.4.13, 安装, vs2013, 配置下载安装软件官网OpenCV下载地址下载最新版本,我下载的是opencv.2.4.13,然 ...
Coder-Strike 2014 - Round 1 D. Giving Awards
题目的意思是老板给n个人发工资,x欠y的工资,the joy of person x from his brand new money reward will be much less, 老板想避免 ...
iOS 两种易混淆的存储路径
一,NSBundle 1>我们可以通过解压等操作获取 NSBundle 中的内容. 2>NSBundle主要是包路径,也就是代码编译后的 imge 和 sb 资源文件... 3>例如 ...
（转）教你实现Winform窗体的四边阴影效果
1.首先我们得有这样一张阴影图片. 2.然后分别有两个窗体去实现这个阴影效果. SkinForm - 用于实现阴影的绘制,特性:鼠标可穿透,无法点击,跟随窗体. SkinMain - 主窗体,也是承载 ...
部署node程序并维持正常运行时间
12.2部署的基础知识假定你创建了一个想要展示的Web程序,或者创建了一个商业应用,在把它放到生产环境中之前需要测试一下.你很可能会从一个简单的部署开始,然后再做些工作让它的正常运行时间和性能达到最 ...
continue 语句
停止循环的当前迭代,并开始新的迭代. continue [label]; 可选的 label 参数指定 continue 应用于哪条语句. 说明只能在 while.do...while.for.或 ...
JS中注意事项
(一)判断中注意事项一.所有的相对路径都别拿来做判断 1.img src='...' 2.href='1.css', href='html/index.html' 3.img src='http:/ ...
CSS3两个动画顺序衔接播放
问题描述: 第一个动画先播放,播放完成后,第二个动画紧接着播放. 解决办法: 1. 将第二个的延迟时间(animation-delay) 设置成第一个的持续时间( animation-duration ...
iOS 程序员 6 级考试（答案和解释）
iOS 程序员 6 级考试(答案和解释) 我是前言 1. 下面的代码分别输出什么? @implementation Son : Father- (id)init { self = [super i ...
Hive_DDL与DML
DDL(数据定义语言) create.drop.alter.truncate.show.describe DML(数据控制语言) load.insert.update.delete.import/ex ...

利用AdaBoost元算法提高分类性能

利用AdaBoost元算法提高分类性能的更多相关文章

随机推荐

热门专题