目录 产生背景 工作原理 参考资料 产生背景 假设选用softmax交叉熵训练一个三分类模型,某样本经过网络最后一层的输出为向量x=(1.0, 5.0, 4.0),对x进行softmax转换输出为: 假设该样本y=[0, 1, 0],那损失loss: 按softmax交叉熵优化时,针对这个样本而言,会让0.721越来越接近于1,因为这样会减少loss,但是这有可能造成过拟合.可以这样理解,如果0.721已经接近于1了,那么网络会对该样本十分“关注”,也就是过拟合.我们可以通过标签平滑的方式解决.