论文解读:Radam:ON THE VARIANCE OF THE ADAPTIVE LEARNING RATE AND BEYOND 1,目的 想找到一个比较好的优化器,能够在收敛速度和收敛的效果上都比较号. 目前sgd收敛较好,但是慢. adam收敛快,但是容易收敛到局部解. 常用解决adam收敛问题的方法是,自适应启动方法. 2,adam方法的问题 adam在训练的初期,学习率的方差较大. 根本原因是因为缺少数据,导致方差大. 学习率的方差大,本质上自适应率的方差大. 可以控制自适应率的方…