梯度下降 Gradient Descent 梯度下降是一种迭代法(与最小二乘法不同),目标是解决最优化问题:\({\theta}^* = arg min_{\theta} L({\theta})\),其中\({\theta}\)是一个向量,梯度是偏微分. 为了让梯度下降达到更好的效果,有以下这些Tips: 1.调整学习率 梯度下降的过程,应当在刚开始的时候,应该步长大一些,以便更快迭代,当靠近目标时,步长调小一些. 虽然式子中的微分有这个效果,但同时改变一下学习率的值,可以很大程度加速这个过程.…