决策树构建中节点的选择靠的就是信息增益了. 信息增益是一种有效的特征选择方法,理解起来很简单:增益嘛,肯定是有无这个特征对分类问题的影响的大小,这个特征存在的话,会对分类系统带来多少信息量,缺了他行不行? 既然是个增益,就是个差了,减法计算一下,谁减去谁呢? 这里就用到了信息熵的概念,放到分类系统里面,信息熵如何计算呢? 分类系统里面无非是样本xi以及样本的分类结果yi,假设这个分类系统有k类,那么作为训练集来说,分类情况基本就定了,是按照样本的各个特征定的.那么在这些样本的信息的前提下,分类器