Sklearn库例子1：Sklearn库中AdaBoost和Decision Tree运行结果的比较

DisCrete Versus Real AdaBoost

关于Discrete 和Real AdaBoost 可以参考博客：http://www.cnblogs.com/jcchen1987/p/4581651.html

本例是Sklearn网站上的关于决策树桩、决策树、和分别使用AdaBoost—SAMME和AdaBoost—SAMME.R的AdaBoost算法在分类上的错误率。这个例子基于Sklearn.datasets里面的make_Hastie_10_2数据库。取了12000个数据，其他前2000个作为训练集，后面10000个作为了测试集。

原网站链接：here

代码如下：

#- *- encoding:utf-8 -*-

"""

Sklearn adaBoost @Dylan

2016/9/1

"""

import numpy as np

import matplotlib.pyplot as plt

from sklearn import datasets

from sklearn.tree import DecisionTreeClassifier

from sklearn.metrics import zero_one_loss

from sklearn.ensemble import  AdaBoostClassifier

import time

a=time.time()

n_estimators=400

learning_rate=1

X,y=datasets.make_hastie_10_2(n_samples=12000,random_state=1)

X_test,y_test=X[2000:],y[2000:]

X_train,y_train=X[:2000],y[:2000]

dt_stump=DecisionTreeClassifier(max_depth=1,min_samples_leaf=1)

dt_stump.fit(X_train,y_train)

dt_stump_err=1.0-dt_stump.score(X_test,y_test)

dt=DecisionTreeClassifier(max_depth=9,min_samples_leaf=1)

dt.fit(X_train,y_train)

dt_err=1.0-dt.score(X_test,y_test)

ada_discrete=AdaBoostClassifier(base_estimator=dt_stump,learning_rate=learning_rate,n_estimators=n_estimators,algorithm='SAMME')

ada_discrete.fit(X_train,y_train)

ada_real=AdaBoostClassifier(base_estimator=dt_stump,learning_rate=learning_rate,n_estimators=n_estimators,algorithm='SAMME.R')

ada_real.fit(X_train,y_train)

fig=plt.figure()

ax=fig.add_subplot(111)

ax.plot([1,n_estimators],[dt_stump_err]*2,'k-',label='Decision Stump Error')

ax.plot([1,n_estimators],[dt_err]*2,'k--',label='Decision Tree Error')

ada_discrete_err=np.zeros((n_estimators,))

for i,y_pred in enumerate(ada_discrete.staged_predict(X_test)):

    ada_discrete_err[i]=zero_one_loss(y_pred,y_test)    ######zero_one_loss

ada_discrete_err_train=np.zeros((n_estimators,))

for i,y_pred in enumerate(ada_discrete.staged_predict(X_train)):

    ada_discrete_err_train[i]=zero_one_loss(y_pred,y_train)

ada_real_err=np.zeros((n_estimators,))

for i,y_pred in enumerate(ada_real.staged_predict(X_test)):

    ada_real_err[i]=zero_one_loss(y_pred,y_test)

ada_real_err_train=np.zeros((n_estimators,))

for i,y_pred in enumerate(ada_real.staged_predict(X_train)):

    ada_discrete_err_train[i]=zero_one_loss(y_pred,y_train)

ax.plot(np.arange(n_estimators)+1,ada_discrete_err,label='Discrete AdaBoost Test Error',color='red')

ax.plot(np.arange(n_estimators)+1,ada_discrete_err_train,label='Discrete AdaBoost Train Error',color='blue')

ax.plot(np.arange(n_estimators)+1,ada_real_err,label='Real AdaBoost Test Error',color='orange')

ax.plot(np.arange(n_estimators)+1,ada_real_err_train,label='Real AdaBoost Train Error',color='green')

ax.set_ylim((0.0,0.5))

ax.set_xlabel('n_estimators')

ax.set_ylabel('error rate')

leg=ax.legend(loc='upper right',fancybox=True)

leg.get_frame().set_alpha(0.7)

b=time.time()

print('total running time of this example is :',b-a)

plt.show()

输出结果

1.运行时间：

total running time of this example is : 6.1493518352508545

2.对比图：

从图中可以看出：弱分类器（Decision Tree Stump）单独分类的效果很差，错误率将近50%，强分类器（Decision Tree）的效果要明显好于他。但是AdaBoost的效果要明显好于这两者。同时在AdaBoost中，Real AdaBoost的分类效果更佳好一点。

Sklearn库例子1：Sklearn库中AdaBoost和Decision Tree运行结果的比较的更多相关文章

机器学习技法之Aggregation方法总结：Blending、Learning（Bagging、AdaBoost、Decision Tree）及其aggregation of aggregation
本文主要基于台大林轩田老师的机器学习技法课程中关于使用融合(aggregation)方法获得更好性能的g的一个总结.包含从静态的融合方法blending(已经有了一堆的g,通过uniform:voti ...
Sklearn库例子——决策树分类
Sklearn上关于决策树算法使用的介绍:http://scikit-learn.org/stable/modules/tree.html 1.关于决策树:决策树是一个非参数的监督式学习方法,主要用于 ...
python常用库 - NumPy 和 sklearn入门
Numpy 和 scikit-learn 都是python常用的第三方库.numpy库可以用来存储和处理大型矩阵,并且在一定程度上弥补了python在运算效率上的不足,正是因为numpy的存在使得py ...
Lua 中的string库（字符串函数库）总结
(字符串函数库)总结投稿:junjie 字体:[增加减小] 类型:转载时间:2014-11-20我要评论这篇文章主要介绍了Lua中的string库(字符串函数库)总结,本文讲解了string库 ...
iOS开发中静态库之".framework静态库"的制作及使用篇
iOS开发中静态库之".framework静态库"的制作及使用篇 .framework静态库支持OC和swift .a静态库如何制作可参照上一篇: iOS开发中静态库之" ...
Tools下的mdscongiguer 文件中 43行 oracle 配置发现需要连接库 -lclntsh libclntsh.so 库是个什么东西呢？
Tools下的mdscongiguer 文件中 43行 oracle 配置发现需要连接库 -lclntsh libclntsh.so 库是个什么东西呢? 分想一个知乎网 ...
在Linux中创建静态库.a和动态库.so
转自:http://www.cnblogs.com/laojie4321/archive/2012/03/28/2421056.html 在Linux中创建静态库.a和动态库.so 我们通常把一些公用 ...
prop-types：该第三方库对组件的props中的变量进行类型检测
利用prop-types第三方库对组件的props中的变量进行类型检测
maven2中snapshot快照库和release发布库的应用
在之前的文章中介绍了maven2中snapshot快照库和release发布库的区别和作用,我今天这里要介绍的是如何在项目中应用snapshot和release库,应用snapshot和release ...

随机推荐

.NET快速开发平台(DevExpress)免费下载
Express开发的eXpressApp Framework为简单快速实现商业应用的提供了有效的手段.强大的模块化结构支持跨平台的特定域扩展.典型应用实例包括:商业/销售/客户关系管理系统,项目,文档 ...
从Wireshark监听的数据中提取需要的数据
最近,需要将wireshark监听的数据进行提取,分两步:首先,应该得出wireshark的数据包吧,在图形化界面中可以非常直观的将监听数据进行存储,但是这样需要手动操作非常麻烦,而且容易出错(随着处 ...
Jumping Cows_贪心
Description Farmer John's cows would like to jump over the moon, just like the cows in their favorit ...
Android Material Design Ripple Effect在Android5.0（SDK=21）以下Android版本崩溃问题解决
Android Material Design Ripple Effect在Android5.0(SDK=21)以下Android版本崩溃问题解决附录1的Android Ripple Effect水 ...
11、网页制作Dreamweaver（补充：JS零碎知识点&&正则表达式）
JS知识点回车符/r和换行符/n的区别:/r 相当于enter,是段落与段落之间的区别, /n 相当于shift+enter,是行与行之间距离,比较小几种window操作方法: 1.获取当前窗口大 ...
HDU 5092
http://acm.hdu.edu.cn/showproblem.php?pid=5092 卡读题,实质是每行取一个点,从上到下找一条路径权值和最小,点可以到达的地方是周围八个格子类似数塔的dp, ...
SQL备份还原，分离附加
备份.还原.分离.附加备份:在要备份的数据库上右键点击任务,在选择备份.在打卡的对话框中根据需要选择.注意:备份过期时间不能为0,否则会马上过期.目标可根据需要放在任何位置.最后,点击确定,备份成功 ...
u32 mac以及arp匹配
# Examples that match MAC (a big "thank you" to Julian Anastasov for this!): M0 through M5 ...
编程工具系列之一------使用GDB的堆栈跟踪功能
在调试程序的过程中,查看程序的函数调用堆栈是一项最基本的任务,几乎所有的图形调试器都支持这项特性. GDB调试器当然也支持这一特性,但是功能更加灵活和丰富. GDB将当前函数的栈帧编号为0,为外层函数 ...
codeforce The Art of Dealing with ATM
题目大意 ATM取款机有n种不同的钱币kind[i],每次取款允许吐出不超过k张钱币,且钱币的种类数不能超过2(一开始没理解2的意思),现在有q次取款,钱数为ques,问ATM能否凑出这样的钱,若能的 ...

Sklearn库例子1：Sklearn库中AdaBoost和Decision Tree运行结果的比较

Sklearn库例子1：Sklearn库中AdaBoost和Decision Tree运行结果的比较的更多相关文章

随机推荐

热门专题