AdaGrad (Adaptive Gradient,自适应梯度) 对每个不同的参数调整不同的学习率, 对频繁变化的参数以更小的步长进行更新,而稀疏的参数以更大的步长进行更新. gt表示第t时间步的梯度(向量,包含各个参数对应的偏导数,gt,i表示第i个参数t时刻偏导数) gt2表示第t时间步的梯度平方(向量,由gt各元素自己进行平方运算所得,即Element-wise) 优势:数据稀疏时,能利用稀疏梯度的信息,比标准的SGD算法更有效地收敛. 缺点:母项的对梯度平方不断累积,随之时间步地增加,