机器学习数据挖掘推荐系统机器学习-Random Forest算法简介

Random Forest是加州大学伯克利分校的Breiman Leo和Adele Cutler于2001年发表的论文中提到的新的机器学习算法，可以用来做分类，聚类，回归，和生存分析，这里只简单介绍该算法在分类上的应用。

Random Forest（随机森林）算法是通过训练多个决策树，生成模型，然后综合利用多个决策树进行分类。

随机森林算法只需要两个参数：构建的决策树的个数t，在决策树的每个节点进行分裂时需要考虑的输入特征的个数m。

1. 单棵决策树的构建：

（1）令N为训练样例的个数，则单棵决策树的输入样例的个数为N个从训练集中有放回的随机抽取N个训练样例。

（2）令训练样例的输入特征的个数为M，切m远远小于M，则我们在每颗决策树的每个节点上进行分裂时，从M个输入特征里随机选择m个输入特征，然后从这m个输入特征里选择一个最好的进行分裂。m在构建决策树的过程中不会改变。

（3）每棵树都一直这样分裂下去，直到该节点的所有训练样例都属于同一类。不需要剪枝。

2. 随机森林的分类结果

按照1生成t个决策树之后，对于每个新的测试样例，综合多个决策树的分类结果来作为随机森林的分类结果。

（1）目标特征为数字类型：取t个决策树的平均值作为分类结果。

（2）目标特征为类别类型：少数服从多数，取单棵树分类结果最多的那个类别作为整个随机森林的分类结果。

3. 分类效果的评价

在随机森林中，无需交叉验证来评价其分类的准确性，随机森林自带OOB（out-of-bag）错误估计：

OOB：在构造单棵决策树时我们只是随机有放回的抽取了N个样例，所以可以用没有抽取到的样例来测试这棵决策树的分类准确性，这些样例大概占总样例数目的三分之一（作者这么说的，我还不知道理论上是如何出来的，但是可以自己做试验验证）。所以对于每个样例j，都有大约三分之一的决策树（记为SetT（j））在构造时没用到该样例，我们就用这些决策树来对这个样例进行分类。我们对于所有的训练样例j，用SetT（j）中的树组成的森林对其分类，然后看其分类结果和实际的类别是否相等，不相等的样例所占的比例就是OOB错误估计。OOB错误估计被证明是无偏的。

参考文献：

[1] Mahout Wiki-Random Forest

[2] Leo Breiman 2001年的paper

[3] Breiman自己对Random Forest的介绍

[4] 交叉验证介绍

机器学习数据挖掘推荐系统机器学习-Random Forest算法简介的更多相关文章

【机器学习】随机森林(Random Forest)
随机森林是一个最近比较火的算法它有很多的优点: 在数据集上表现良好在当前的很多数据集上,相对其他算法有着很大的优势它能够处理很高维度(feature很多)的数据,并且不用做特征选择在训练完后, ...
机器学习技法：10 Random Forest
Roadmap Random Forest Algorithm Out-Of-Bag Estimate Feature Selection Random Forest in Action Summar ...
【机器学习】随机森林 Random Forest 得到模型后，评估参数重要性
在得出random forest 模型后,评估参数重要性 importance() 示例如下特征重要性评价标准 %IncMSE 是 increase in MSE.就是对每一个变量比如 X1 随机 ...
Kemaswill 机器学习数据挖掘推荐系统 Ranking SVM 简介
Ranking SVM 简介排序一直是信息检索的核心问题之一,Learning to Rank(简称LTR)用机器学习的思想来解决排序问题(关于Learning to Rank的简介请见我的博文Le ...
Kemaswill 机器学习数据挖掘推荐系统 Python optparser模块简介
Python optparser模块简介
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱（转）
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...
[resource-]Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
reference: http://www.52nlp.cn/python-%e7%bd%91%e9%a1%b5%e7%88%ac%e8%99%ab-%e6%96%87%e6%9c%ac%e5%a4% ...
【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
本文转载自:https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9 ...
Random Forest总结
一.简介 RF = Bagging + Decision Tree 随机:数据采样随机,特征选择随机森林:多个决策树并行放在一起几个误区: 不是每棵树随机选择特征,而是每一个结点都随机选择固定数目 ...

随机推荐

makefile使用.lds链接脚本以及 $@ ,$^, $,< 解析
先来分析一个简单的.lds链接脚本例1,假如现在有head.c init.c nand.c main.c这4个文件: 1.1 首先创建链接脚本nand.lds: SECTIONS { firtst ...
团队作业8----第二次项目冲刺（Beta阶段）第七天
BETA阶段冲刺第六天 1.小会议ing 2.每个人的工作 (1)昨天已完成的工作完成查重部分 (2) 今天计划完成的工作 (3) 工作中遇到的困难: 尤少辉:在测试的时候发现了,文件名保存到数据 ...
Quartz入门指南
Quartz入门指南看到官网的教程对于新手来说不够全面和连贯,因此结合自己的使用过程写下这个入门指南,用以解惑.本文基于Quartz2.2.2版本.请注意,本文为了易于上手,省略了许多重要的概念,建 ...
201521123014 《Java程序设计》第4周学习总结
1. 本周学习总结 1.1 有关继承的知识点 1.2 使用常规方法总结其他上课内容多态性相同的形态,不同的行为例子: public class Manager extends Employee{ ...
201521123061 《Java程序设计》第四周学习总结
201521123061 <Java程序设计>第四周学习总结 1. 本章学习总结 (1)思维导图: --- (2)上课内容总结: 第四周学习了Java中的继承与多态,思维导图中已经给出了本 ...
201521123081《java程序设计》第11周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多线程相关内容. 参考资料:XMind ============================================== ...
201521123042《Java程序设计》第13周学习总结
本次作业参考文件正则表达式参考资料 1. 本周学习总结以你喜欢的方式(思维导图.OneNote或其他)归纳总结多网络相关内容. 2. 书面作业 1. 网络基础 1.1 比较ping www.bai ...
基于maven的profile实现动态选择配置文件
需求根据选择不同的部署环境自动替换相关配置变量,如连接的数据库等. 最终效果概览部署环境分为dev和release 工程目录结构 myproject |-profile | |-dev | | | ...
监听器第一篇【基本概念、Servlet各个监听器】
什么是监听器监听器就是一个实现特定接口的普通java程序,这个程序专门用于监听另一个java对象的方法调用或属性改变,当被监听对象发生上述事件后,监听器某个方法将立即被执行. 为什么我们要使用监听器 ...
Linux硬链接软连接
转载原文出处:http://www.cnblogs.com/itech/archive/2009/04/10/1433052.html 1.Linux链接概念 Linux链接分两种,一种被称为硬链接( ...

机器学习 数据挖掘 推荐系统机器学习-Random Forest算法简介

机器学习 数据挖掘 推荐系统机器学习-Random Forest算法简介的更多相关文章

随机推荐

热门专题

机器学习数据挖掘推荐系统机器学习-Random Forest算法简介

机器学习数据挖掘推荐系统机器学习-Random Forest算法简介的更多相关文章