过拟合与欠拟合 我们希望机器学习得到好的模型,该模型能够从训练样本中找到一个能够适应潜在样本的普遍规律.然而,如果机器学习学的“太好”了,以至把样本的自身特点当作潜在样本的一般特性,这就使得模型的泛化能力(潜在样本的预测能力)下降,从而导致过拟合.反之,欠拟合就是学习的“太差”,连训练样本都没有学好. 欠拟合容易处理,比如在决策树中扩展分支,在神经网络中增加训练轮数,需要重点关注的是麻烦的过拟合. 当训练数据很少时,如果使用了过多的特征,将会导致过拟合: 图三是一个明显的过拟合,它使用了高阶多项…