过拟合概念:是指分类器能够百分之百的正确分类样本数据(训练集中的样本数据),对训练集以外的数据却不能够正确分类. 原因:1:模型(算法)太过复杂,比如神经网络,算法太过精细复杂,规则太过严格,以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别,即在训练样本中拟合的很好,在训练样本外拟合的很差,过拟合最早就是从神经网络中发现出来的.策略树深度过深.回归参数过多,都会造成过拟合. 2:训练集中存在噪音,为了拟合异常点,偏离了正常分布. 3:训练集太小或不具有代表性 训练集与测试集互不相交,前…