随机森林和GBDT的几个核心问题

随机森林random forest的pro和con是什么？
优势是accuracy高，但缺点是速度会降低，并且解释性interpretability会差很多，也会有overfitting的现象。

为什么要最大化information gain?
从root到leaf，使得各class distribution的Entropy不断减低。如果相反的话，就会增加预测的不确定性。

熵entrophy的意义是什么？
首先信息量的大小和可能情况的对数函数取值有关系。变量的不确定情况越大，熵越大。

如何避免在随机森林中出现overfitting?
对树的深度的控制也即对模型复杂度的控制，可以在一定程度上避免overfitting，简言之就是shallow tree。此外就是prune，把模型训练比较复杂，看合并节点后的subtree能否降低generation error。随机选择训练集的subset，也可以实现避免overfitting。

Bagging的代价是什么？
Bagging的代价是不用单次决策树来做预测，具体哪个变量起到重要作用变得未知，所以bagging改进了预测准确率但损失了解释性。

Random forest和bagged tree的区别是什么？
随机森林的构建过程中，当考虑每个split时，都只从所有p个样本中选取随机的m个样本，作为split candidate。特别的m大概会取p的平方差。其核心目的是decorrelate不同的树。bagged tree和random forest的核心区别在于选择subset的大小。

什么是GBDT？
通过boosting的方法迭代性的构建week decision tree的ensemble。其优势是不需要feature normalization，feature selection可以在学习过程中自动的体现。并且可以指定不同的loss function。但是boosting是一个sequential process，并非并行化的。计算非常intensive，对高维稀疏数据的feature vector表现相当poor。

GBDT训练的步骤是什么？
使用information gain来获得最好的split。然后根据best split来partition数据。低于cut的数据分至left node，高于cut的数据分至right node。接下来进行boosting，梯度函数可以有多种形式，Gradient是下一棵树的目标。

MapReduce如何实现GBDT呢？
每一个mapper得到<feature value> 以及<residual weight>。reducer积累cuts并且sort。Split数据依据cut，并且输出到DFS。

Classification tree和Regression tree的区别是什么？
回归树的output label是continnuous，而分类树的output label是离散的。因此目标函数也要做相应的调整。特别的regression tree所给出的是probabilistic, non-linear regression，regression tree可以associate未知的独立的测试数据和dependent，continuous的预测。

顶: 0

踩

随机森林和GBDT的几个核心问题的更多相关文章

常见算法（logistic回归，随机森林，GBDT和xgboost）
常见算法(logistic回归,随机森林,GBDT和xgboost) 9.25r早上面网易数据挖掘工程师岗位,第一次面数据挖掘的岗位,只想着能够去多准备一些,体验面这个岗位的感觉,虽然最好心有不甘告终 ...
机器学习中的算法(1)-决策树模型组合之随机森林与GBDT
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gm ...
机器学习中的算法——决策树模型组合之随机森林与GBDT
前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等.但是同时,单决策树又有一些不好的地方,比如说容易over- ...
决策树模型组合之（在线）随机森林与GBDT
前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等.但是同时, 单决策树又有一些不好的地方,比如说容易over ...
机器学习中的算法-决策树模型组合之随机森林与GBDT
机器学习中的算法(1)-决策树模型组合之随机森林与GBDT 版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使 ...
随机森林与GBDT
前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等.但是同时,单决策树又有一些不好的地方,比如说容易over- ...
决策树模型组合之随机森林与GBDT
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gm ...
决策树模型组合之随机森林与GBDT（转）
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gm ...
OpenCV：使用随机森林与GBDT
随机森林顾名思义,是用随机的方式建立一个森林.简单来说,随机森林就是由多棵CART(Classification And Regression Tree)构成的.对于每棵树,它们使用的训练集是从总的训 ...

随机推荐

python网络编程:socket、服务端、客户端
本文内容: socket介绍 TCP: 服务端客户端 UDP: 服务端客户端首发时间:2018-02-08 01:14 修改: 2018-03-20 :重置了布局,增加了UDP 什么是socke ...
[20171130]关于rman备份疑问.txt
[20171130]关于rman备份疑问.txt --//前面测试太乱,重新做一些rman as copy相关测试. 1.环境:SCOTT@book> @ &r/ver1PORT_STR ...
macOS 下NFS 文件系统挂载
主要有两种方式: 使用:resvport选项, mount 挂载命令时. 使用:insecure选项, exportfs 文件配置时. sudo mount -o resvport IP:Addr b ...
mysql状态分析之show global status（转）
mysql> show global status;可以列出MySQL服务器运行各种状态值,我个人较喜欢的用法是show status like '查询值%';一.慢查询mysql> sh ...
creo5.0安装教程(图文详解)
PTC公司最近发布了Creo 5.0正式版 ,作为最具其革命性的新一代产品设计软件,其所提供专业的二维和三维设计设计,能帮助企业和公司进行产品生命周期管理(PLM)和制定服务管理解决方案.Creo5. ...
创建随机的9x9数独游戏终盘并打印
创建随机的9x9数独游戏终盘并打印项目github地址 1. 项目相关要求 1.1 要求利用程序随机构造出N个已解答的9x9数独棋盘 . 输入数独棋盘题目个数N(0<N<=10000 ...
Alpha冲刺！ Day8 - 砍柴
Alpha冲刺! Day8 - 砍柴今日已完成晨瑶:写了部分gitkraken团队协作教程:讨论关于继承baseActivity因为需要参数无法通过override去实现函数,并且initData ...
怎样从本地删除git远程仓库里面的文件
git是大家通用的一种版本控制系统,便捷高效,各种命令需要牢记,今天小渔介绍给大家的是git的删除命令,即将文件从远程仓库中删除的操作. 方法/步骤首先,我们打开自己的本地GIT仓库,在根目 ...
C - Reduced ID Numbers 寒假训练
T. Chur teaches various groups of students at university U. Every U-student has a unique Student Ide ...
matlab数字图像处理入门基础
本代码基于张铮主编的<数字图像处理与机器视觉>一书. 源图片:lena A = imread ('lena.jpg'); %读入图像lena.jpg,赋给变量A %imwrite(A,'l ...

随机森林和GBDT的几个核心问题

随机森林和GBDT的几个核心问题的更多相关文章

随机推荐

热门专题