C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进有如下几个要点: 1)用信息增益率来选择属性.ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy, 熵是一种不纯度 度量准则),也就是熵的变化值,ID3算法以信息增益作为划分训练数据集的特征,有一个致命的缺点:选择取值比较多的特征往往会具有较大的信息增益,所以ID3偏向于选择取值较多的特征. 2)在决策树构造过程中进行剪枝,因为某些具有…