Machine Learning in Action -- AdaBoost
初始的想法就是,结合不同的分类算法来给出综合的结果,会比较准确一些
称为ensemble methods or meta-algorithms,集成方法或元算法
集成方法有很多种,可以是不同算法之间的,也可以是同一个算法但不同参数设置之间的,也可以是将数据集分成多分给不同的分类器之间的
总的来说,有3个维度可以进行集成,算法,算法参数和数据集
下面简单介绍两种比较流行的元算法思路,
1. Building classifiers from randomly resampled data: bagging
bagging又称为bootstrap aggregating
想法比较简单,对大小为n的训练集做n次放回随机抽样,形成新的大小仍然为n的训练集
因为是放回随机抽样,新的训练集中可能有重复,某些训练集中的样本中新的训练集中也会没有
用这个方法,产生s个新的训练集,对同一个分类算法可以产生s个不同参数的分类器
使用时,让s个分类器,多数投票表决来决定最终的分类结果
比较典型的bagging算法,如随机森林(random forest)
首先采用bootstrap取样,用产生新的训练集生成决策树,并且用在新训练集中没有抽样到样本作为测试集
如果有S个新的训练集,就会产生S个决策树,所以称为森林
所谓随机,首先新训练集是随机抽样产生的
再者,在训练决策树的时候,每个树节点会随机选择m个特征(m<<M总特征数)
参考,http://zh.wikipedia.org/wiki/%E9%9A%8F%E6%9C%BA%E6%A3%AE%E6%9E%97
2. Boosting
下面主要介绍Boosting中最流行的AdaBoost算法,这里主要介绍实现,理论参考前一篇
我们使用单层决策树,即decision stump 决策树桩作为弱分类器
所谓decision stump,就是只对一个特征做一次划分的单节点的决策树
这个弱分类器足够简单,但是如果直接使用,基本没用,
比如对于底下这个很简单的训练集,用一个decision stump都无法完全正确分类,试着在x轴或y轴上做一次划分
虽然无法完全正确分类,但是我们需要找到误差最小的那个decision stump
方法很简单,在x和y的取值范围内,以一定的步长,遍历比较误差
先实现stump分类,
dataMatrix,一行表示一个训练样本,每列表示一个特征
dimen,表示哪个特征
threshVal,阀值
threshIneq,对于decision stump,只存在less than或greater than
def stumpClassify(dataMatrix,dimen,threshVal,threshIneq):
retArray = ones((shape(dataMatrix)[0],1))
if threshIneq == 'lt': #lt,less than
retArray[dataMatrix[:,dimen] <= threshVal] = -1.0 #boolean indexing
else:
retArray[dataMatrix[:,dimen] > threshVal] = -1.0
return retArray
所以给定上面的参数,就是可以判断每个样本的分类是1或-1
下面给出求解最优stump分类器的算法,
参数中有个D向量,表示样本weight
因为这里是要找到加权样本误差最小的stump分类器
def buildStump(dataArr,classLabels,D):
dataMatrix = mat(dataArr); labelMat = mat(classLabels).T
m,n = shape(dataMatrix)
numSteps = 10.0; bestStump = {}; bestClasEst = mat(zeros((m,1)))
minError = inf #inf,python中表示无穷大
for i in range(n): #遍历每个特征
rangeMin = dataMatrix[:,i].min(); rangeMax = dataMatrix[:,i].max(); #计算该特征上的取值范围
stepSize = (rangeMax-rangeMin)/numSteps #计算遍历步长
for j in range(-1,int(numSteps)+1): #以步长遍历该特征
for inequal in ['lt', 'gt']: #尝试划分的方向,less than或greater than
threshVal = (rangeMin + float(j) * stepSize)
predictedVals = stumpClassify(dataMatrix,i,threshVal,inequal) #进行stump分类
errArr = mat(ones((m,1))) #初始化误差为1
errArr[predictedVals == labelMat] = 0 #计算误差,将分对的误差设为0
weightedError = D.T*errArr #计算加权误差
if weightedError < minError: #如果小于minError,说明我们找到更优的stump分类器
minError = weightedError
bestClasEst = predictedVals.copy()
bestStump['dim'] = i
bestStump['thresh'] = threshVal
bestStump['ineq'] = inequal
return bestStump,minError,bestClasEst
好,现在可以给出AdaBoost算法的源码,
def adaBoostTrainDS(dataArr,classLabels,numIt=40):
weakClassArr = []
m = shape(dataArr)[0] #样本数
D = mat(ones((m,1))/m) #初始化样本weight,所有样本权值相等为1/m
aggClassEst = mat(zeros((m,1))) #累积分类结果
for i in range(numIt): #生成多少个弱分类器
bestStump,error,classEst = buildStump(dataArr,classLabels,D) #计算最优的stump分类器
print "D:",D.T
alpha = float(0.5*log((1.0-error)/max(error,1e-16))) #1.计算该分类器的权值
bestStump['alpha'] = alpha
weakClassArr.append(bestStump)
print "classEst: ",classEst.T
expon = multiply(-1*alpha*mat(classLabels).T,classEst)
D = multiply(D,exp(expon)) #2.更新样本权值
D = D/D.sum()
aggClassEst += alpha*classEst #3.更新累积分类结果
print "aggClassEst: ",aggClassEst.T
aggErrors = multiply(sign(aggClassEst) != #计算累积分类误差
mat(classLabels).T,ones((m,1)))
errorRate = aggErrors.sum()/m
print "total error: ",errorRate,"\n"
if errorRate == 0.0: break #4.误差为0,算法结束
return weakClassArr
其中,
1. 计算分类器权值的公式为,
max(error,1e-16),这个是为了防止error为0
2. 更新样本权值的公式为,
即判断正确时,减小权值,而错误时,增大权值
expon = multiply(-1*alpha*mat(classLabels).T,classEst)
-alpha×classLabel×classEst,即如果分类正确,classLable=classEst,仍然得到-alpha,否则得到alpha
3. aggClassEst
因为我们最终在分类时,是用多个弱分类器的综合结果
所以这里每生成一个弱分类器,我们就把它的分类结果加到aggClassEst上,aggClassEst += alpha*classEst
aggErrors = multiply(sign(aggClassEst) != mat(classLabels).T,ones((m,1)))
用于aggClassEst是float类型,所以先使用sign转换成1,-1,0
然后!= mat(classLabels).T,会产生一个boolean的向量
小技巧,这里为何要乘上一个全1的向量,因为需要把boolean类型转换为int
可以在python试下,
>>> (1 == 1) *1
1
4.最终当所有弱分类器综合误差为0时,就不需要继续迭代了
下面看看,如何用AdaBoost算法进行分类
def adaClassify(datToClass,classifierArr):
dataMatrix = mat(datToClass)
m = shape(dataMatrix)[0]
aggClassEst = mat(zeros((m,1)))
for i in range(len(classifierArr)):
classEst = stumpClassify(dataMatrix,classifierArr[i]['dim'],\
classifierArr[i]['thresh'],\
classifierArr[i]['ineq'])
aggClassEst += classifierArr[i]['alpha']*classEst
print aggClassEst
return sign(aggClassEst)
Machine Learning in Action -- AdaBoost的更多相关文章
- 【机器学习实战】Machine Learning in Action 代码 视频 项目案例
MachineLearning 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远 Machine Learning in Action (机器学习实战) | ApacheCN(apa ...
- 学习笔记之机器学习实战 (Machine Learning in Action)
机器学习实战 (豆瓣) https://book.douban.com/subject/24703171/ 机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中 ...
- K近邻 Python实现 机器学习实战(Machine Learning in Action)
算法原理 K近邻是机器学习中常见的分类方法之间,也是相对最简单的一种分类方法,属于监督学习范畴.其实K近邻并没有显式的学习过程,它的学习过程就是测试过程.K近邻思想很简单:先给你一个训练数据集D,包括 ...
- 机器学习实战(Machine Learning in Action)学习笔记————10.奇异值分解(SVD)原理、基于协同过滤的推荐引擎、数据降维
关键字:SVD.奇异值分解.降维.基于协同过滤的推荐引擎作者:米仓山下时间:2018-11-3机器学习实战(Machine Learning in Action,@author: Peter Harr ...
- 机器学习实战(Machine Learning in Action)学习笔记————09.利用PCA简化数据
机器学习实战(Machine Learning in Action)学习笔记————09.利用PCA简化数据 关键字:PCA.主成分分析.降维作者:米仓山下时间:2018-11-15机器学习实战(Ma ...
- 机器学习实战(Machine Learning in Action)学习笔记————08.使用FPgrowth算法来高效发现频繁项集
机器学习实战(Machine Learning in Action)学习笔记————08.使用FPgrowth算法来高效发现频繁项集 关键字:FPgrowth.频繁项集.条件FP树.非监督学习作者:米 ...
- 机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析
机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析 关键字:Apriori.关联规则挖掘.频繁项集作者:米仓山下时间:2018 ...
- 机器学习实战(Machine Learning in Action)学习笔记————06.k-均值聚类算法(kMeans)学习笔记
机器学习实战(Machine Learning in Action)学习笔记————06.k-均值聚类算法(kMeans)学习笔记 关键字:k-均值.kMeans.聚类.非监督学习作者:米仓山下时间: ...
- 机器学习实战(Machine Learning in Action)学习笔记————05.Logistic回归
机器学习实战(Machine Learning in Action)学习笔记————05.Logistic回归 关键字:Logistic回归.python.源码解析.测试作者:米仓山下时间:2018- ...
随机推荐
- select()函数以及FD_ZERO、FD_SET、FD_CLR、FD_ISSET(转)
select函数用于在非阻塞中,当一个套接字或一组套接字有信号时通知你,系统提供select函数来实现多路复用输入/输出模型, 原型: int select(int maxfd,fd_set *rds ...
- P and V
上次,我们已经说过死锁的形成原因以及防止方法了,都知道,之所以会发生死锁现象,原因之一是进程执行所申请的资源得不到满足,而陷入无限期的循环等待现象,而在这里我们说的进程其实是并发进程,也就是一组,至少 ...
- 安装完最小化 RHEL/CentOS 7 后需要做的 30 件事情(二)转载自码农网
7. 安装 PHP PHP 是用于 web 基础服务的服务器端脚本语言.它也经常被用作通用编程语言.在最小化安装的 CentOS 中安装 PHP: # yum install php 安装完 php ...
- 开始写github
公司即将开发手机钱庄网,于是最近在写一些手机上常用的js组件做前期准备. 之所以没有沿用pc的那些插件,原因是: 之前的插件大多数是使用jquery写的 移动端的性能要求更严格 以前写的插件从现在看看 ...
- Xamarin.Android提示找不到mono.Android.Support.v4
Xamarin.Android提示找不到mono.Android.Support.v4 错误信息:Error: Exception while loading assemblies: System.I ...
- 递推DP URAL 1586 Threeprime Numbers
题目传送门 /* 题意:n位数字,任意连续的三位数字组成的数字是素数,这样的n位数有多少个 最优子结构:考虑3位数的数字,可以枚举出来,第4位是和第3位,第2位组成的数字判断是否是素数 所以,dp[i ...
- BZOJ3780 : 数字统计
从低位到高位数位DP,f[i][j][k]表示已经填了后i位,转化的数字为j,后i位与x后i位的大小关系为k的方案数. #include<cstdio> const int N=202,B ...
- TYVJ P1001 第K极值 Label:水
背景 成成第一次模拟赛 第一道 描述 给定一个长度为N(0<n<=10000)的序列,保证每一个序列中的数字a[i]是小于maxlongint的非负整数 ,编程要求求出整个序列中第k大的数 ...
- [Unity2D]精灵动画
通常我们在游戏里面创建的精灵比如玩家主角,它在移动的过程中一般会带有一些动画的效果,比如两只脚前后地移动,那么这种动画效果的实现和控制就可以通过Unity2D的动画系统来实现. 要添加这样的动画,首先 ...
- [Cocos2d-x For WP8]Hello world
[Cocos2d-x For WP8]Hello world Cocos2d-x For WP8使用C++开发,使用cocos2d-xv0.13同样的接口,Cocos2d-x For WP8的相关项目 ...