决策树模型 优点:高效简单.易于理解,可以处理不相关特征. 缺点:容易过拟合,训练集在特征上是完备的 决策树过程:特征选择.划分数据集.构建决策树.决策树剪枝 决策树选择最优的划分特征,将数据集按照最优划分特征的取值划分成不同的子集,然后依次对子集重复上述步骤,指导子集中数据都归属于同一个类别,或者没有特征可以再划分了. 特征选择通常有三种方法: ID3——信息信息 C4.5——信息增益比 CART——基尼指数 一.信息增益 首先信息论中熵表示随机变量不确定性度量,熵越大,不确定性越大. 熵的定…