sklearn-adaboost

sklearn中实现了adaboost分类和回归，即AdaBoostClassifier和AdaBoostRegressor，

AdaBoostClassifier 实现了两种方法，即 SAMME 和 SAMME.R

AdaBoostRegressor 用的 Adaboost.R2

框架参数

分类与回归框架参数基本相同

base_estimator：基学习器，默认是cart分类树和cart回归树，如果AdaBoostClassifier选择SAMME.R算法，基学习器还要支持概率预测，也就是在sklearn中基学习器的预测方法有predict和predict_proba

algorithm：只在AdaBoostClassifier中有，主要原因是实现了两种Adaboost分类算法，SAMME和SAMME.R。

两者的主要区别是弱学习器权重的度量，SAMME用对样本集分类效果作为弱学习器权重，而SAMME.R使用了对样本集分类的预测概率大小来作为弱学习器权重。

由于SAMME.R使用了概率度量的连续值，迭代一般比SAMME快，因此AdaBoostClassifier的默认算法algorithm的值也是SAMME.R。

我们一般使用默认的SAMME.R就够了，但是要注意的是使用了SAMME.R，则弱分类学习器参数base_estimator必须限制使用支持概率预测的分类器。SAMME算法则没有这个限制。

loss：只在AdaBoostRegressor中有，Adaboost.R2算法需要用到。

有线性‘linear’, 平方‘square’和指数 ‘exponential’三种选择, 默认是线性，一般使用线性就足够了，除非你怀疑这个参数导致拟合程度不好。

n_estimator：基学习器的个数，默认50

learning_rate：学习率，默认是1，取值0-1之间，用于正则化，防止过拟合

random_state：随机种子设置。

基学习器参数

默认决策树，基学习器的参数同单独的决策树的参数

参数很多，选几个调参常用的参数解释下

max_feature：节点划分时的最大特征数，默认为None，即考虑所有特征，取log2代表最多考虑log₂N个特征，取sqrt或auto代表最多考虑根号N 个特征，取整数m代表m个特征，取浮点数代表百分比，即 m*N，

如果特征不多，一般用None即可

max_depth：树的深度，不指定是无限生长

min_samples_split：节点划分所需的最小样本数，默认是2

min_samples_leaf ：叶子节点最少样本数，默认是1

min_weight_fraction_leaf：叶子节点最小的样本权重和，限制叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝。默认是0，就是不考虑权重问题。

　　一般来说，如果我们有较多样本有缺失值，或者分类树样本的分布类别偏差很大，就会引入样本权重，这时我们就要注意这个值了。

max_leaf_nodes: 最大叶子节点数，防止过拟合，默认是"None”，即不限制最大的叶子节点数。

属性

1、estimators_ : list of classifiers，拟合的基学习器的集合。

2、classes_ : array of shape = [n_classes]，类的标签。

3、n_classes_ : int，类的数量。

4、estimator_weights_ : array of floats，在提升的总体效果中，每个估计器的权重。

5、estimator_errors_ : array of floats，在提升的总体效果中，每个估计器的分类误差。

6、feature_importances_ : array of shape = [n_features]，如果基学习器支持的话，它表示每个特征的重要性。

方法

decision_function(X):返回决策函数值（比如svm中的决策距离）

fit(X,Y):在数据集（X,Y）上训练模型。

get_parms():获取模型参数

predict(X):预测数据集X的结果。

predict_log_proba(X):预测数据集X的对数概率。

predict_proba(X):预测数据集X的概率值。

score(X,Y):输出数据集（X,Y）在模型上的准确率。

staged_decision_function(X):返回每个基分类器的决策函数值

staged_predict(X):返回每个基分类器的预测数据集X的结果。

staged_predict_proba(X):返回每个基分类器的预测数据集X的概率结果。

staged_score(X, Y):返回每个基分类器的预测准确率。

参考资料：

https://blog.csdn.net/hahaha_2017/article/details/79852363

https://www.jianshu.com/p/b936e49509ca

sklearn-adaboost的更多相关文章

Python sklearn Adaboost
1. Adaboost类库概述 scikit-learn中Adaboost类库比较直接,就是AdaBoostClassifier和AdaBoostRegressor两个,从名字就可以看出AdaBoos ...
Sklearn库例子1：Sklearn库中AdaBoost和Decision Tree运行结果的比较
DisCrete Versus Real AdaBoost 关于Discrete 和Real AdaBoost 可以参考博客:http://www.cnblogs.com/jcchen1987/p/4 ...
监督学习集成模型——AdaBoost
一.集成学习与Boosting 集成学习是指将多个弱学习器组合成一个强学习器,这个强学习器能取所有弱学习器之所长,达到相对的最佳性能的一种学习范式. 集成学习主要包括Boosting和Bagging两 ...
Tree - AdaBoost with sklearn source code
In the previous post we addressed some issue of decision tree, including instability, lack of smooth ...
scikit-learn Adaboost类库使用小结
在集成学习之Adaboost算法原理小结中,我们对Adaboost的算法原理做了一个总结.这里我们就从实用的角度对scikit-learn中Adaboost类库的使用做一个小结,重点对调参的注意事项做 ...
使用sklearn进行集成学习——实践
系列 <使用sklearn进行集成学习——理论> <使用sklearn进行集成学习——实践> 目录 1 Random Forest和Gradient Tree Boosting ...
使用sklearn进行集成学习——理论
系列 <使用sklearn进行集成学习——理论> <使用sklearn进行集成学习——实践> 目录 1 前言2 集成学习是什么?3 偏差和方差 3.1 模型的偏差和方差是什么? ...
sklearn分类
近期的事务与sklearn有关,且主要用到了分类.在此做一点笔记进行分类大概涉及三个知识点: 一. 分类器二.特征选择三.模型选择一.分类器(Classification) 实例一:plot_ ...
[转]使用sklearn进行集成学习——理论
转:http://www.cnblogs.com/jasonfreak/p/5657196.html 目录 1 前言2 集成学习是什么?3 偏差和方差 3.1 模型的偏差和方差是什么? 3.2 bag ...
[转]使用sklearn进行集成学习——实践
转:http://www.cnblogs.com/jasonfreak/p/5720137.html 目录 1 Random Forest和Gradient Tree Boosting参数详解2 如何 ...

随机推荐

poj1151 Atlantis （线段树+扫描线+离散化）
有点难,扫描线易懂,离散化然后线段树处理有点不太好理解. 因为这里是一个区间,所有在线段树中更新时,必须是一个长度大于1的区间才是有效的,比如[l,l]这是一根线段,而不是区间了. AC代码 #inc ...
Asp.net core Identity + identity server + angular 学习笔记 (第三篇)
register -> login 讲了我们来讲讲 forgot password -> reset password 和 change password 吧先来 forgot pa ...
Project D | Digital life
I have a dream. 1999年黑客帝国就已经提出了数字化生命的雏形,近些年的黑镜和其他科幻电影更是脑洞大开,但是生命科学的进展却差强人意. 当今人类世界里有三大复杂系统:以细胞为基础的生命 ...
windows下用c++调用caffe做前向
参考博客: https://blog.csdn.net/muyouhang/article/details/54773265 https://blog.csdn.net/hhh0209/article ...
添加本地nuget包
1.找到vs工具栏,如下图所示,找到包管理器 2.点击添加按钮,添加源,点击下方浏览按钮,找到源得位置,然后点击更新 3.找到项目,切换包源,切换到包管理器得浏览页面,找到要添加得包安装即可.
SpringBoot之Java配置
Java配置也是Spring4.0推荐的配置方式,完全可以取代XML的配置方式,也是SpringBoot推荐的方式. Java配置是通过@Configuation和@Bean来实现的: 1.@Conf ...
Python —— 函数高级特性（切片、迭代、列表生成式、生成器、迭代器）
一.切片(Slice) 在很多编程语言中,针对字符串提供了很多截取函数(i.e. substring),目的就是对字符串切片.python中没有针对字符串的截取函数,需要通过“切片”来完成. 取一个 ...
echarts常用方法（一）
目前,项目中涉及到图表的,使用echarts的频率较多,因为UI设计一般不会考虑到是否能实现的问题,他们专注的只是显示的效果.所以作为前端开发,要对echarts进行不同程度的改造,组合,甚至重写等. ...
Envoy 源码分析－－buffer
目录 Envoy 源码分析--buffer BufferFragment RawSlice Slice OwnedSlice SliceDeque UnownedSlice OwnedImpl Wat ...
你所误解的微信公众号开发、以及微信公众号网页授权、接收url跳转参数等问题
前言:有一星期没跟新博客了,最近太忙.项目赶进度就没把时间花在博客上:今天来说说所谓的微信公众号开发和填坑记录: 微信公众号:运行在微信终端的应用 (对于开发者来说比较爽的你只需考虑兼容微信浏览器,因 ...

sklearn-adaboost

sklearn-adaboost的更多相关文章

随机推荐

热门专题