一、简介

RF = Bagging + Decision Tree

随机：数据采样随机，特征选择随机

森林：多个决策树并行放在一起

几个误区：

不是每棵树随机选择特征，而是每一个结点都随机选择固定数目的特征
采样。样本数量为N，采样数量也为N，但是采取的是有放回的采样（bootstrap）。
组合算法。训练结束之后，对新数据进行预测的时候，会让新数据在所有得到的M个决策树上进行预测，最后对结果进行平均或者进行投票。最早的算法是投票：每个树对每一类投票，sklearn的算法是对各个树进行了平均取结果。
分类和回归。随机森林可以做分类，也可以做回归，但是很显然（实践上也是），做回归有点不靠谱，所以研究随机森林回归意思不大。
假设总共有1-6个特征，如果第一个节点随机选出了1、2、3这三个特征，然后根据信息增益保留了1；然后第二个节点随机选择特征是在2-6选择还是1-6中选择呢？答案还是从1-6中选择增益最大的特征

1.RF的算法的流程？

　　首先我们来复习一下之前介绍过的两个机器学习模型：Bagging和Decision Tree。Bagging是通过bootstrap的方式，从原始的数据集D中得到新的D^；然后再使用一些base algorithm对每个D^都得到相应的gt；最后将所有的gt通过投票uniform的形式组合成一个G，G即为我们最终得到的模型。Decision Tree是通过递归形式，利用分支条件，将原始数据集D切割成一个个子树结构，长成一棵完整的树形结构。Decision Tree最终得到的G(x)是由相应的分支条件b(x)和分支树Gc(x)递归组成。

　　Bagging和Decison Tree算法各自有一个很重要的特点。Bagging具有减少不同gt的方差variance的特点。这是因为Bagging采用投票的形式，将所有gt uniform结合起来，起到了求平均的作用，从而降低variance。而Decision Tree具有增大不同gt的方差variance的特点。这是因为Decision Tree每次切割的方式不同，而且分支包含的样本数在逐渐减少，所以它对不同的资料D会比较敏感一些，从而不同的D会得到比较大的variance。
　　所以说，Bagging能减小variance，而Decision Tree能增大variance。如果把两者结合起来，能否发挥各自的优势，起到优势互补的作用呢？这就是我们接下来将要讨论的aggregation of aggregation，即使用Bagging的方式把众多的Decision Tree进行uniform结合起来。这种算法就叫做随机森林（Random Forest），它将完全长成的C&RT决策树通过bagging的形式结合起来，最终得到一个庞大的决策模型。

　　Random Forest算法流程图如下所示：

（1）随机抽取资料

　　以上是基本的Random Forest算法，我们再来看一下如何让Random Forest中决策树的结构更有多样性。Bagging中，通过bootstrap的方法得到不同于D的D’，使用这些随机抽取的资料得到不同的gt。

（2）随机抽取特征

【1】随机抽取特征

　　例如，原来有100个特征，现在只从中随机选取30个来构成决策树，那么每一轮得到的树都由不同的30个特征构成，每棵树都不一样。假设原来样本维度是d，则只选择其中的d’（d’小于d）个维度来建立决策树结构。这类似是一种从d维到d’维的特征转换，相当于是从高维到低维的投影，也就是说d’维z空间其实就是d维x空间的一个随机子空间（subspace）。通常情况下，d’远小于d，从而保证算法更有效率。Random Forest算法的作者建议在构建C&RT每个分支b(x)的时候，都可以重新选择子特征来训练，从而得到更具有多样性的决策树。【具体怎么选特征看第三节】

　　所以说，这种增强的Random Forest算法增加了random-subspace。

【2】组合特征　　

　　上面我们讲的是随机抽取特征，除此之外，还可以将现有的特征x，通过数组p进行线性组合，来保持多样性：

　　这种方法使每次分支得到的不再是单一的子特征集合，而是子特征的线性组合（权重不为1）。好比在二维平面上不止得到水平线和垂直线，也能得到各种斜线。这种做法使子特征选择更加多样性。值得注意的是，不同分支i下的pi是不同的，而且向量pi中大部分元素为零，因为我们选择的只是一部分特征，这是一种低维映射。

　　所以，这里的Random Forest算法又有增强，由原来的random-subspace变成了random-combination。顺便提一下，这里的random-combination类似于perceptron模型。

2.Out-of-Bag Estimate

　　上一部分我们已经介绍了Random Forest算法，而Random Forest算法重要的一点就是Bagging。接下来将继续探讨bagging中的bootstrap机制到底蕴含了哪些可以为我们所用的东西。

　　通过bootstrap得到新的样本集D'，再由D'训练不同的gt。我们知道D'中包含了原样本集D中的一些样本，但也有些样本没有涵盖进去。如下表所示，不同的gt下，红色的*表示在中没有这些样本。例如对g1来说，(x2,y2)和(x3,y4)没有包含进去，对g2来说,(x1,y1)和(x2,y2)没有包含进去,等等。每个gt中，红色*表示的样本被称为out-of-bag(OOB) example。

　　首先，我们来计算OOB样本到底有多少。假设bootstrap的数量N'=N，那么某个样本(xn,yn)是OOB的概率是：

　　其中，e是自然对数，N是原样本集的数量。由上述推导可得，每个gt中，OOB数目大约是1/e*N ，即大约有三分之一的样本没有在bootstrap中被抽到。

　　然后，我们将OOB与之前介绍的Validation进行对比：

　　这种做法我们并不陌生，就像是我们之前介绍过的Leave-One-Out Cross Validation，每次只对一个样本进行g^-的验证一样，只不过这里选择的是每个样本是哪些gt 的OOB，然后再分别进行G'n(x)的验证。每个样本都当成验证资料一次（与留一法相同），最后计算所有样本的平均表现：

3.RF如何选择特征？

　　如果样本资料特征过多，假如有10000个特征，而我们只想从中选取300个特征，这时候就需要舍弃部分特征。通常来说，需要移除的特征分为两类：一类是冗余特征，即特征出现重复，例如“年龄”和“生日”；另一类是不相关特征，例如疾病预测的时候引入的“保险状况”。这种从d维特征到d’维特征的subset-transform Φ(x)称为Feature Selection，最终使用这些d’维的特征进行模型训练。

特征选择的优点是：

提高效率，特征越少，模型越简单
正则化，防止特征过多出现过拟合
去除无关特征，保留相关性大的特征，解释性强

同时，特征选择的缺点是：

筛选特征的计算量较大
不同特征组合，也容易发生过拟合
容易选到无关特征，解释性差

（1）线性模型

　　值得一提的是，在decision tree中，我们使用的decision stump切割方式也是一种feature selection。那么，如何对许多维特征进行筛选呢？我们可以通过计算出每个特征的重要性（即权重），然后再根据重要性的排序进行选择即可。

　　这种方法在线性模型中比较容易计算。因为线性模型的score是由每个特征经过加权求和而得到的，而加权系数的绝对值|wi|正好代表了对应特征xi的重要性为多少。|wi|越大，表示对应特征xi越重要，则该特征应该被选择。w的值可以通过对已有的数据集(xi,yi)建立线性模型而得到。

（2）非线性模型

　　然而，对于非线性模型来说，因为不同特征可能是非线性交叉在一起的，所以计算每个特征的重要性就变得比较复杂和困难。例如，Random Forest就是一个非线性模型，接下来，我们将讨论如何在RF下进行特征选择。
　　RF中，特征选择的核心思想是random test。random test的做法是对于某个特征，如果用另外一个随机值替代它之后的表现比之前更差，则表明该特征比较重要，所占的权重应该较大，不能用一个随机值替代。相反，如果随机值替代后的表现没有太大差别，则表明该特征不那么重要，可有可无。所以，通过比较某特征被随机值替代前后的表现，就能推断出该特征的权重和重要性。
　　那么random test中的随机值如何选择呢？通常有两种方法：一是使用uniform或者gaussian抽取随机值替换原特征；一是通过permutation的方式将原来的所有N个样本的第i个特征值重新打乱分布（相当于重新洗牌）。比较而言，第二种方法更加科学，保证了特征替代值与原特征的分布是近似的（只是重新洗牌而已）。这种方法叫做permutation test（随机排序测试），即在计算第i个特征的重要性的时候，将N个样本的第i个特征重新洗牌，然后比较D和D^(p)表现的差异性。如果差异很大，则表明第i个特征是重要的。

　　知道了permutation test的原理后，接下来要考虑的问题是如何衡量上图中的performance，即替换前后的表现。显然，我们前面介绍过performance可以用Eoob(G) 来衡量。但是，对于N个样本的第i个特征值重新洗牌重置的D^(p)，要对它进行重新训练，而且每个特征都要重复训练，然后再与原D的表现进行比较，过程非常繁琐。为了简化运算，RF的作者提出了一种方法，就是把permutation的操作从原来的training上移到了OOB validation上去，记为

　　也就是说，在训练的时候仍然使用D，但是在OOB验证的时候，将所有的OOB样本的第i个特征重新洗牌，验证G的表现。这种做法大大简化了计算复杂度，在RF的feature selection中应用广泛。

4.RF的参数有哪些，如何调参？

　　要调整的参数主要是 n_estimators和max_features
（1）n_estimators是森林里树的数量，通常数量越大，效果越好，但是计算时间也会随之增加。此外要注意，当树的数量超过一个临界值之后，算法的效果并不会很显著地变好。
（2）max_features是分割节点时考虑的特征的随机子集的大小。这个值越低，方差减小得越多，但是偏差的增大也越多。

回归问题中使用 max_features = n_features
分类问题使用 max_features = sqrt(n_features )（其中 n_features 是特征的个数）是比较好的默认值。 max_depth = None 和 min_samples_split = 2 结合通常会有不错的效果（即生成完全的树）。

（3）warm_start=False：热启动，决定是否使用上次调用该类的结果然后增加新的。

（4）class_weight=None：各个label的权重。

进行预测可以有几种形式：

predict_proba(x)：给出带有概率值的结果。每个点在所有label的概率和为1.
predict(x)：直接给出预测结果。内部还是调用的predict_proba()，根据概率的结果看哪个类型的预测值最高就是哪个类型。
predict_log_proba(x)：和predict_proba基本上一样，只是把结果给做了log()处理。

　　请记住，这些（默认）值通常不是最佳的，同时还可能消耗大量的内存，最佳参数值应由交叉验证获得。另外，请注意，在随机森林中，默认使用自助采样法（bootstrap = True），然而 extra-trees 的默认策略是使用整个数据集（bootstrap = False）。当使用自助采样法方法抽样时，泛化精度是可以通过剩余的或者袋外的样本来估算的，设置 oob_score = True 即可实现。

提示:
默认参数下模型复杂度是：O(M*N*log(N)) ，其中 M 是树的数目， N 是样本数。可以通过设置以下参数来降低模型复杂度： min_samples_split , min_samples_leaf , max_leaf_nodes`` 和 ``max_depth 。

5.RF的优缺点？

优点:

不同决策树可以由不同主机并行训练生成，效率很高；
随机森林算法继承了CART的优点；
将所有的决策树通过bagging的形式结合起来，避免了单个决策树造成过拟合的问题。

缺点：

当我们需要推断超出范围的独立变量或非独立变量，随机森林做得并不好，我们最好使用如 MARS 那样的算法。
随机森林算法在训练和预测时都比较慢。
如果需要区分的类别十分多，随机森林的表现并不会很好。

参考文献：

【1】林轩田机器学习技法课程学习笔记10 — Random Forest

【2】从决策树到随机森林：树型算法的原理与实现

【3】独家 | 一文读懂随机森林的解释和实现

Random Forest总结的更多相关文章

[Machine Learning & Algorithm] 随机森林（Random Forest）
1 什么是随机森林? 作为新兴起的.高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来 ...
paper 85：机器统计学习方法——CART, Bagging, Random Forest, Boosting
本文从统计学角度讲解了CART(Classification And Regression Tree), Bagging(bootstrap aggregation), Random Forest B ...
paper 56 ：机器学习中的算法：决策树模型组合之随机森林（Random Forest）
周五的组会如约而至,讨论了一个比较感兴趣的话题,就是使用SVM和随机森林来训练图像,这样的目的就是在图像特征之间建立内在的联系,这个model的训练,着实需要好好的研究一下,下面是我们需要准备的入门 ...
多分类问题中，实现不同分类区域颜色填充的MATLAB代码（demo：Random Forest）
之前建立了一个SVM-based Ordinal regression模型,一种特殊的多分类模型,就想通过可视化的方式展示模型分类的效果,对各个分类区域用不同颜色表示.可是,也看了很多代码,但基本都是 ...
Ensemble Learning 之 Bagging 与 Random Forest
Bagging 全称是 Boostrap Aggregation,是除 Boosting 之外另一种集成学习的方式,之前在已经介绍过关与 Ensemble Learning 的内容与评价标准,其中“多 ...
Aggregation（1）：Blending、Bagging、Random Forest
假设我们有很多机器学习算法(可以是前面学过的任何一个),我们能不能同时使用它们来提高算法的性能?也即:三个臭皮匠赛过诸葛亮. 有这么几种aggregation的方式: 一些性能不太好的机器学习算法(弱 ...
Plotting trees from Random Forest models with ggraph
Today, I want to show how I use Thomas Lin Pederson's awesome ggraph package to plot decision trees ...
Random Forest Classification of Mushrooms
There is a plethora of classification algorithms available to people who have a bit of coding experi ...
统计学习方法——CART, Bagging, Random Forest, Boosting
本文从统计学角度讲解了CART(Classification And Regression Tree), Bagging(bootstrap aggregation), Random Forest B ...
机器学习数据挖掘推荐系统机器学习-Random Forest算法简介
Random Forest是加州大学伯克利分校的Breiman Leo和Adele Cutler于2001年发表的论文中提到的新的机器学习算法,可以用来做分类,聚类,回归,和生存分析,这里只简单介绍该 ...

随机推荐

UOJ#110. 【APIO2015】Bali Sculptures 贪心动态规划
原文链接https://www.cnblogs.com/zhouzhendong/p/UOJ110.html 题解我们发现n=2000 的子任务保证A=1! 分两种情况讨论: $n\leq 100$ ...
python可视化pyecharts
python可视化pyecharts 简单介绍 pyecharts 是一个用于生成 Echarts 图表的类库.Echarts 是百度开源的一个数据可视化 JS 库.用 Echarts 生成的图可视化 ...
CSS属性兼容写法
一种是用js判断兼容性 // JS if ("CSS" in window && "supports" in window.CSS) { var ...
aspnet core运行后台任务
之前在公司的一个项目中需要用到定时程序,当时使用的是aspnet core提供的IHostedService接口来实现后台定时程序,具体的示例可去官网查看.现在的dotnet core中默认封装了实现 ...
Kali Linux常用服务配置教程获取IP地址
Kali Linux常用服务配置教程获取IP地址下面以Kali Linux为例,演示获取IP地址的方法 (1)设置网络接口为自动获取IP地址.在Kali Linux的收藏夹中单击图标,将显示所有的程 ...
JavaScript（六）
定时器定时器在javascript中的作用1.制作动画2.异步操作3.函数缓冲与节流定时器类型及语法 /* 定时器: setTimeout 只执行一次的定时器 clearTimeout 关闭只执行 ...
python学习中遇到的问题
问题1: ‘unicodeescape’ codec can’t decode bytes in position XXX: trun错误解决方案 http://blog.csdn.net/u0112 ...
AJAX_违反了同源策略_就是"跨域"——jsonp 和 cors
https 协议默认端口号 443 http 协议默认端口号 80 同源策略由网景公司提出的——浏览器的为了浏览器安全而生同源策略: 协议.域名.端口号必须完全一致违 ...
10.1jihe
两种操作,1是加入数字,二是找最接近的用set或者平衡二叉树就好了只写了二叉树的,套版子就好 #include<bits/stdc++.h> #define sf scanf #def ...
[LeetCode] Quad Tree Intersection 四叉树相交
A quadtree is a tree data in which each internal node has exactly four children: topLeft, topRight, ...

Random Forest总结

一、简介

1.RF的算法的流程？

（1）随机抽取资料

（2）随机抽取特征

【1】随机抽取特征

【2】组合特征

2.Out-of-Bag Estimate

3.RF如何选择特征 ？

（1）线性模型

（2）非线性模型

4.RF的参数有哪些，如何调参 ？

5.RF的优缺点 ？

Random Forest总结的更多相关文章

随机推荐

热门专题

【2】组合特征　　

3.RF如何选择特征？

4.RF的参数有哪些，如何调参？

5.RF的优缺点？