C4.5算法是对ID3算法的改进,在决策树的生成过程中,使用了信息增益率作为属性选择的方法,其具体的算法步骤如下: 输入:训练数据集D,特征集A,阈值e 输出:决策树T 1.如果D中所有实例属于同一类C,则置T为单结点树,并将C作为该结点的类,返回T 2.如果A=∅,则置T为单结点树,并将D中实例数最大的类C作为该结点的类,返回T 3.否则,计算A中各特征对D的信息增益率,选择信息增益率最大的特征Ak 4.如果Ak的信息增益率小于阈值e,则置T为单结点树,并将D中实例数最大的类C作为该结点的类,