梯度下降和随机梯度下降 梯度下降在深度学习中很少被直接使用,但理解梯度的意义以及沿着梯度反方向更新自变量可能降低目标函数值的原因是学习后续优化算法的基础.随后,将引出随机梯度下降(stochastic gradient descent). 一维梯度下降 以简单的一维梯度下降为例,解释梯度下降算法可能降低目标函数值的原因.假设连续可导的函数f:ℝ→ℝ的输入和输出都是标量.给定绝对值足够小的数ϵ,根据泰勒展开公式,得到以下的近似: 学习率 梯度下降算法中的正数η通常叫作学习率.这是一个超参数,需要人…