在训练了 50 个 epoch 之后,本文作者惊讶地发现模型什么都没学到,于是开始深挖背后的问题,并最终从恺明大神论文中得到的知识解决了问题. 上个星期我做了一些实验,用了在 CIFAR10 数据集上训练的 VGG16.我需要从零开始训练模型,所以没有使用在 ImageNet 上预训练的版本. 我开始了 50 个 epoch 的训练,然后去喝了个咖啡,回来就看到了这些学习曲线: 模型什么都没学到! 我见过网络收敛得极其缓慢.振荡.过拟合.发散,但这是我第一次发现这种行为--模型根本就没有起任何作…