在上篇文章中,我们用一个框架来回顾了主流的深度学习优化算法.可以看到,一代又一代的研究者们为了我们能炼(xun)好(hao)金(mo)丹(xing)可谓是煞费苦心.从理论上看,一代更比一代完善,Adam/Nadam已经登峰造极了,为什么大家还是不忘初心SGD呢? 举个栗子.很多年以前,摄影离普罗大众非常遥远.十年前,傻瓜相机开始风靡,游客几乎人手一个.智能手机出现以后,摄影更是走进千家万户,手机随手一拍,前后两千万,照亮你的美(咦,这是什么乱七八糟的).但是专业摄影师还是喜欢用单反,孜孜不倦地调…