weight_decay防止过拟合的参数,使用方式: 样本越多,该值越小 模型参数越多,该值越大 一般建议值: weight_decay: 0.0005 lr_mult, decay_mult 关于偏置与参数使用不同的学习率与权重衰减项: 偏置的学习率一般为参数的两倍 比如一个卷积,有偏置的话,其学习率应该是 param { lr_mult: } param { lr_mult: } 偏置设为2倍,能够加速收敛 对于偏置,其衰减项一般设置为0,还是对应上面的卷积: param { lr_mult