本文目的 当前spark(1.3版)随机森林实现,没有包括OOB错误评估和变量权重计算.而这两个功能在实际工作中比较常用.OOB错误评估可以代替交叉检验,评估模型整体结果,避免交叉检验带来的计算开销.现在的数据集,变量动辄成百上千,变量权重有助于变量过滤,去掉无用变量,提高计算效率,同时也可以帮助理解业务.所以,本人在原始代码基础上,扩展了这两个功能,下面记录实现过程,作为备忘录(参考代码). 整体思路 Random Forest实现中,大多数内部对象是私有(private[tree])的,所以