利用AdaBoost方法构建多个弱分类器进行分类

1.AdaBoost 思想

补充：这里的若分类器之间有比较强的依赖关系;对于若依赖关系的分类器一般使用Bagging的方法

弱分类器是指分类效果要比随机猜测效果略好的分类器，我们可以通过构建多个弱分类器来进行最终抉择（俗话说，三个臭皮匠顶个诸葛亮大概就这意思）。首先我们给每个样例初始化一个权重，构成向量D，然后再更新D，更新规则如下：

当一个样例被分类器正确分类时，我们就减小它的权重

否则，增大它的权重

对于每个弱分类器，我们根据它对样例分类错误率来设置它的权重alpha,分类错误率越高，相应的alpha就会越小，如下所示

最终我们训练出多个弱分类器，通过加权分类结果，输出最终分类结果，如下图所示

2.实验过程

 # -*- coding: utf-8 -*-

 """

 Created on Wed Mar 29 16:57:37 2017

 @author: MyHome

 """

 import  numpy as np

 '''返回分类结果向量'''

 def stumpClassify(dataMatrix,dimen,threshVal,threshIneq):

     retArray = np.ones((np.shape(dataMatrix)[0],1))

     if threshIneq == "lt":

         retArray[dataMatrix[:,dimen] <= threshVal] = -1.0

     else:

         retArray[dataMatrix[:,dimen] > threshVal] = -1.0

     return retArray

 '''构造一个最佳决策树，返回决策树字典'''

 def buildStump(dataArr,classLabels,D):

     dataMatrix = np.mat(dataArr)

     labelMat = np.mat(classLabels).T

     m,n = dataMatrix.shape

     numSteps = 10.0

     bestStump = {}

     bestClassEst = np.mat(np.zeros((m,1)))

     minError = np.inf

     for i in xrange(n):

         rangeMin = dataMatrix[:,i].min()

         rangeMax = dataMatrix[:,i].max()

         stepSize = (rangeMax - rangeMin)/numSteps

         for j in xrange(-1,int(numSteps)+1):

             for inequal in ["lt","gt"]:

                 threshVal = (rangeMin + float(j)*stepSize)

                 #print threshVal

                 predictedVals = stumpClassify(dataMatrix,i,threshVal,inequal)

                 errArr = np.mat(np.ones((m,1)))

                 errArr[predictedVals==labelMat] = 0

                 weightedError = D.T*errArr

                 if weightedError < minError:

                     minError = weightedError

                     bestClassEst = predictedVals.copy()

                     bestStump["dim"] = i

                     bestStump["thresh"] = threshVal

                     bestStump["ineq"] = inequal

     return bestStump,minError,bestClassEst

 '''训练多个单层决策树分类器，构成一个数组'''

 def adaBoostTrainDS(dataArr,classLabels,numIt =40):

     weakClassArr = []

     m = np.shape(dataArr)[0]

     D = np.mat(np.ones((m,1))/m)

     aggClassEst = np.mat(np.zeros((m,1)))

     for i in range(numIt):

         bestStump,error,classEst = buildStump(dataArr,classLabels,D)

         #print "D:",D.T

         alpha = float(0.5*np.log((1.0-error)/max(error,1e-16)))

         bestStump["alpha"] = alpha

         weakClassArr.append(bestStump)

         #print "ClassEst:",classEst.T.shape

         expon = np.multiply(-1*alpha*np.mat(classLabels).T,classEst)

         #print expon

         D = np.multiply(D,np.exp(expon))

         D = D / D.sum()

         aggClassEst += alpha*classEst

         #print "aggClassEst: ",aggClassEst.T

         aggErrors = np.multiply(np.sign(aggClassEst)!= np.mat(classLabels).T,np.ones((m,1)))

         errorRate = aggErrors.sum()/m

         print "total error:",errorRate,"\n"

         if errorRate ==0.0:

             break

     return weakClassArr

 '''分类器'''

 def adaClassify(datToClass,classifierArr):

     dataMatrix = np.mat(datToClass)

     m = np.shape(dataMatrix)[0]

     aggClassEst = np.mat(np.zeros((m,1)))

     for i in range(len(classifierArr)):

         classEst = stumpClassify(dataMatrix,classifierArr[i]["dim"],\

         classifierArr[i]["thresh"],classifierArr[i]["ineq"])

         aggClassEst += classifierArr[i]["alpha"]*classEst

         #print aggClassEst

     return np.sign(aggClassEst)

 '''载入数据'''

 def loadDataSet(fileName):

     numFeat = len(open(fileName).readline().split("\t"))

     dataMat = []

     labelMat = []

     fr = open(fileName)

     for line in fr.readlines():

         lineArr = []

         curLine = line.strip().split("\t")

         for i in range(numFeat-1):

             lineArr.append(float(curLine[i]))

         dataMat.append(lineArr)

         labelMat.append(float(curLine[-1]))

     #print dataMat,labelMat

     return dataMat,labelMat

 if __name__ == "__main__":

     datArr,labelArr =  loadDataSet("horseColicTraining2.txt")

     classifierArray = adaBoostTrainDS(datArr,labelArr,10)

     testData,testY = loadDataSet("horseColicTest2.txt")

     predictionArr = adaClassify(testData,classifierArray)

     errorArr = np.mat(np.ones((len(testData),1)))

     FinalerrorRate = errorArr[predictionArr!= np.mat(testY).T].sum()/float(errorArr.shape[0])

     print "FinalerrorRate:",FinalerrorRate

3.实验结果

total error: 0.284280936455

total error: 0.247491638796

total error: 0.254180602007

total error: 0.240802675585

total error: 0.220735785953

total error: 0.247491638796

total error: 0.230769230769

FinalerrorRate: 0.238805970149

4.实验总结

通过多个构建多个弱分类器，然后根据各个弱分类器的能力大小（即权重)来对分类结果进行加权求和，得出最终结果。只要数据集比较完整，这种方法还是很强大的，后续还可以尝试更多其他的分类器进行集成。

利用AdaBoost方法构建多个弱分类器进行分类的更多相关文章

用cart（分类回归树）作为弱分类器实现adaboost
在之前的决策树到集成学习里我们说了决策树和集成学习的基本概念(用了adaboost昨晚集成学习的例子),其后我们分别学习了决策树分类原理和adaboost原理和实现, 上两篇我们学习了cart(决策分 ...
【AdaBoost算法】弱分类器训练过程
一.加载数据(正样本.负样本特征) def loadSimpData(): #样本特征 datMat = matrix([[ 1. , 2.1, 0.3], [ 2. , 1.1, 0.4], [ 1 ...
利用AdaBoost元算法提高分类性能
当做重要决定时,大家可能都会吸取多个专家而不只是一个人的意见.机器学习处理问题时又何尝不是如此?这就是元算法背后的思路.元算法是对其他算法进行组合的一种方式. 自举汇聚法(bootstrap aggr ...
机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想在使用某个特定的算法是, ...
《机器学习实战第7章：利用AdaBoost元算法提高分类性能》
import numpy as np import matplotlib.pyplot as plt def loadSimpData(): dataMat = np.matrix([[1., 2.1 ...
【转载】机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
原文地址: https://www.cnblogs.com/steven-yang/p/5686473.html ------------------------------------------- ...
【译】用boosting构建简单的目标分类器
用boosting构建简单的目标分类器原文 boosting提供了一个简单的框架,用来构建鲁棒性的目标检测算法.这里提供了必要的函数来实现它:100% MATLAB实现,作为教学工具希望让它简单易得 ...
Clumsy 利用无线网卡结合Clumsy软件模拟弱网络测试
利用无线网卡结合Clumsy软件模拟弱网络测试 by:授客 QQ:1033553122 实践环境 Clumsy 0.2 下载地址:http://jagt.github.io/clumsy/downlo ...
弱分类器的进化--Bagging、Boosting、Stacking
一般来说集成学习可以分为三大类: 用于减少方差的bagging 用于减少偏差的boosting 用于提升预测结果的stacking 一.Bagging(1996) 1.随机森林(1996) RF = ...

随机推荐

Dijkstra算法（带路径模板）
个人心得:Dijkstra算法是贪心思想的一种延伸,注意路径pre,pre数组表示此时最短路径中的前一个顶点.每次更新到目的点时更新: 从源点出发,更新路径,然后找出此时最短的点,然后以这个点为头,看 ...
django的多对一，一对一，多对多关系
from django.db import models class Publisher(models.Model): name = models.CharField(max_length=30) a ...
Flyway客户端使用
一.flyway介绍 Flyway是一款开源的数据库版本管理工具,它更倾向于规约优于配置的方式.Flyway可以独立于应用实现管理并跟踪数据库变更,支持数据库版本自动升级,并且有一套默认的规约,不需要 ...
Windows下.svn文件夹的最简易删除方法
如果想删除Windows下的.svn文件夹,通过手动删除的渠道是最麻烦的,因为每个文件夹下面都存在这样的文件. 下面是一个好办法: 建立一个文本文件,取名为kill-svn-folders.reg(扩 ...
关于android api 23 +的权限问题
Beginning in Android 6.0 (API level 23), users grant permissions to apps while the app is running, n ...
AngularJS：表达式
ylbtech-AngularJS:表达式 1.返回顶部 1. AngularJS 表达式 AngularJS 使用表达式把数据绑定到 HTML. AngularJS 表达式 AngularJS ...
org.apache.hadoop.security.AccessControlException: Permissiondenied: user=liuyingping, access=WRITE,inode="/user/root/output":root:supergroup:drwxr-xr-x
原因: 权限问题.用户liuyingping没有访问hdfs下文件的权限. 参考:HDFS客户端的权限错误:Permission denied 解决方案(推荐): 在系统的环境变量添加HADOOP_U ...
oracle 11g r2 rac +openfiler 2.99 +centos 6.5+vbox
继上篇openfiler 2.99安装之后,这一篇讲介绍openfiler的存储配置和oracle 端的服务配置参考文档:https://www.oracle.com/technetwork/cn/ ...
Linux学习笔记 -- Shell 数组
定义在Shell的世界里,我们只能定义一维数组. 定义数组的时候不需要指定长度,数组的下标从0开始; Shell 数组用括号来表示,元素用"空格"符号分割开,语法格式如下: sh ...
mybatis配置ehcache缓存
1:在spring配置文件中加载缓存配置文件  <bean id="ehCacheManager" class=" ...

利用AdaBoost方法构建多个弱分类器进行分类

利用AdaBoost方法构建多个弱分类器进行分类的更多相关文章

随机推荐

热门专题