网上的内容感觉又多又乱,自己写一篇决策树算法.希望对别人有所启发,对自己也是一种进步. 决策树 须知概念 信息熵 & 信息增益 熵: 熵(entropy)指的是体系的混乱的程度,在不同的学科中也有引申出的更为具体的定义,是各领域十分重要的参量. 信息熵(香农熵): 是一种信息的度量方式,表示信息的混乱程度,也就是说:信息越有序,信息熵越低.例如:火柴有序放在火柴盒里,熵值很低,相反,熵值很高. 信息增益: 在划分数据集前后信息发生的变化称为信息增益. 决策树 开发流程 收集数据:可以使用任何方法