Random Forest 采用bagging思想,即利用bootstrap抽样,得到若干个数据集,每个数据集都训练一颗树. 构建决策树时,每次分类节点时,并不是考虑全部特征,而是从特征候选集中选取若干个特征用于计算.弱特征共有p个,一般选取m=sqrt(p)个特征.当可选特征数目很大时,选取一个较小的m值,有助于决策树的构建. 当树的数量足够多时,RF不会产生过拟合,提高树的数量能够使得错误率降低. GBDT 采用Boosting思想(注意是Boosting,不是Boostrap) 不采…