其实,之前就接触过随机森林,但仅仅是用来做分类和回归.最近,因为要实现一个idea,想到用随机森林做ensemble learning才具体的来看其理论知识.随机森林主要是用到决策树的理论,也就是用决策树来对特征进行选择.而在特征选择的过程中用到的是熵的概念,其主要实现算法有ID3和C4.5.下面我们先来看看决策树. 下面我们用一个例子具体的来说明 我们要选取一个最好的特征来判断是否贷款,上面给出了年龄,工作,房子,信贷四种特征.如果一种特征具有更好的分类能力,或者说,按照这一特征将训练数据集分