如图,为使用到的公式,信息熵表明样本的混乱程度,增益表示熵减少了,即样本开始分类,增益率是为了平衡增益准则对可取值较多的属性的偏好,同时增益率带来了对可取值偏小的属性的偏好,实际中,先用增益进行筛选,选取大于增益平均值的,然后再选取其中增益率最高的. 以下代码纯粹手写,未参考其他人代码,如果问题,请不吝赐教. 1,计算信息熵的函数 import numpy as np# 计算信息熵 # data:like np.array # data.shape=(num_data,data_features