机器学习技法-随机森林（Random Forest）

课程地址：https://class.coursera.org/ntumltwo-002/lecture

重要！重要！重要~

一、随机森林（RF）

1.RF介绍

RF通过Bagging的方式将许多个CART组合在一起，不考虑计算代价，通常树越多越好。
RF中使用CART没有经过剪枝操作，一般会有比较大的偏差（variance），结合Bagging的平均效果可以降低CART的偏差。
在训练CART的时候，使用有放回的随机抽取样本（bootstraping）、随机的抽取样本的特征、甚至将样本特征通过映射矩阵P投影到随机的子空间等技术来增大g(t)的随机性、多样性。

2.RF算法结构和优势

二、OOB（Out-Of-Bag）和自验证（Automatic Validation）

1.RF中使用的有放回的抽样方式（Bootstrapping）会导致能有些样本在某次训练中没有被使用，没有被用到的样本称为OOB(Out-Of-Bag)。

当样本集合很大的时候，如果训练数据的大小和样本集合的大小相同，那么某个样本没有被使用的概率大约为1/3，OOB的大小也约为样本集合的1/3，下面是具体的数学描述。

2.RF Validation

RF 并不注重每棵树的分类效果，实际中也不会用OOB数据来验证g(t)，而是使用OOB数据来验证G。

但同时为了保证验证数据绝对没有在训练时“偷窥”，使用的G是去掉与测试的OOB相关的g(t)组成的G-。

最后将所有的OOB测试结果取平均。林说：实际中Eoob通常都会非常精确。

三、特征选择(Feature Selection)和排列检验(Permutation Test)

在实际中，当样本的特征非常多的时候，有时会希望去掉冗余或者与结果无关的特征项，选取相对重要的特征项。
线性模型中，特征项的重要性使用|Wi|来衡量，非线性模型中特征项重要性的衡量一般会比较困难。
RF中使用统计中的工具排列检验(Permutation Test)来衡量特征项的重要性。
N个样本，每个样本d个维度，要想衡量其中某个特征di的重要，根据Permutation Test把这N个样本的di特征项都洗牌打乱，洗牌前后的误差相减就是该特征项重要性。
RF中通常不在训练时使用Permutation Test，而是在Validation 时打乱OOB的特征项，再评估验证，获得特征项的重要性。

四、RF的应用

在简单数据集上，相比单棵的CART树，RF模型边界更加平滑，置信区间（Margin）也比较大
在复杂且有含有噪声的数据集上，决策树通常表现不好；RF具有很好的降噪性，相比而言RF模型也会表现得很好
RF中选多少棵树好呢？总的来说是越多越好！！！实践中，要用足够多的树去确保G的稳定性，所以可以使用G的稳定性来判断使用多少棵树好。

机器学习技法-随机森林（Random Forest）的更多相关文章

【机器学习】随机森林(Random Forest)
随机森林是一个最近比较火的算法它有很多的优点: 在数据集上表现良好在当前的很多数据集上,相对其他算法有着很大的优势它能够处理很高维度(feature很多)的数据,并且不用做特征选择在训练完后, ...
【机器学习】随机森林 Random Forest 得到模型后，评估参数重要性
在得出random forest 模型后,评估参数重要性 importance() 示例如下特征重要性评价标准 %IncMSE 是 increase in MSE.就是对每一个变量比如 X1 随机 ...
sklearn_随机森林random forest原理_乳腺癌分类器建模(推荐AAA)
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
机器学习方法（六）：随机森林Random Forest，bagging
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 前面机器学习方法(四)决策树讲了经典 ...
机器学习（六）—随机森林Random Forest
1.什么是随机采样? Bagging可以简单的理解为:放回抽样,多数表决(分类)或简单平均(回归): Bagging的弱学习器之间没有boosting那样的联系,不存在强依赖关系,基学习器之间属于并列 ...
随机森林random forest及python实现
引言想通过随机森林来获取数据的主要特征 1.理论根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类,即个体学习器之间存在强依赖关系,必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系 ...
第九篇：随机森林(Random Forest)
前言随机森林非常像<机器学习实践>里面提到过的那个AdaBoost算法,但区别在于它没有迭代,还有就是森林里的树长度不限制. 因为它是没有迭代过程的,不像AdaBoost那样需要迭代,不 ...
机器学习技法：10 Random Forest
Roadmap Random Forest Algorithm Out-Of-Bag Estimate Feature Selection Random Forest in Action Summar ...
随机森林(Random Forest)
决策树介绍:http://www.cnblogs.com/huangshiyu13/p/6126137.html 一些boosting的算法:http://www.cnblogs.com/huangs ...

随机推荐

第四章 CSS基础
1.CSS是cascading style sheets 层叠样式表.样式定义如何显示html元素,通常存储在样式表中,将样式添加到html中,是为了解决内容与表现分离的问题. 2.外部样式表可以极大 ...
bzoj 1934: [Shoi2007]Vote 善意的投票
#include<cstdio> #include<iostream> #define M 100000 #include<cstring> using names ...
HTTP(socket)下载遇到valgrind提示的错误： Conditional jump or move depends on uninitialised value(s)
我写了个http下载函数,下载txt.jpg都正常,就是下载php有问题:valgrind会报错Conditional jump or move depends on uninitialised va ...
velocity插件 veloeclipse 支持eclipse4.4
分享主页:http://pan.baidu.com/share/home?uk=2737650112#category/type=0 http://pan.baidu.com/s/12RSAy 感谢究 ...
Spark运行环境的安装
scala-2.9.3:一种编程语言,下载地址:http://www.scala-lang.org/download/ spark-1.4.0:必须是编译好的Spark,如果下载的是Source ...
过滤器 Filter
Filter(过滤器)简介 Filter 的基本功能是对发送到 Servlet 的请求进行拦截, 并对响应也进行拦截. Filter 程序是一个实现了 Filter 接口的 Java 类,与 Serv ...
wp8.1 Study9：针对不同的屏幕和手机方向调整UI
一.预备知识现在不同屏幕大小WP8.1手机越来越多,那么在设计UI时,这需要我们考虑这个问题.在WP中,比例因子(a scale factor)能很好的解决问题,而且在微软系统的PC/平板/手机都是 ...
从协议VersionedProtocol开始3——ClientProtocol、DatanodeProtocol、NamenodeProtocol、RefreshAuthorizationPolicyProtocol、RefreshUserMappingsProtocol
1.ClientProtocol这个玩意的版本号是61L:DatanodeProtocol 是26L:NamenodeProtocol是 3L;RefreshAuthorizationPolicyPr ...
推荐可以代替Visio的HTML开发的作图工具:ProcessOn
过去作图的时候一直都是在用visio,每一次换了电脑使用都要重新安装,这大家都知道,最头疼的就是激活问题,曾经因为激活问题我“找遍了”正个互联网,最后还没找到...从08年开始到现在,visio用了这 ...
java中利用JFrame创建窗体【转】
1. 一个简单的swing public class Test(){ public static void main(String[] args){ JFrame frame = new JFrame ...

机器学习技法-随机森林（Random Forest）

机器学习技法-随机森林（Random Forest）的更多相关文章

随机推荐

热门专题