在mini-batch梯度下降法中,我们曾经说过因为分割了baby batch,所以迭代是有波动而且不能够精确收敛于最小值的 因此如果我们将学习率α逐渐变小,就可以使得在学习率α较大的时候加快模型训练速度,在α变小的时候使得模型迭代的波动逐渐减弱,最终收敛于一个较小的区域来得到较为精确的结果 首先是公式1学习率衰减的标准公式: 其中decay rate即衰减率,epoch-num指的是遍历整个训练集的次数,α0是给定的初始学习率 其次是公式2指数衰减公式: 其中,0.95是一个小于1的初始值,可…