梯度下降法就是沿梯度下降的方向求解函数(误差)极小值.delta法则是使用梯度下降法来找到最佳权向量.拿数字识别这个案例为例,训练模型的过程通常是这样的.输入为1万张图片,也就是1万个样本,我们定义为D,是训练样例集合,输出为相对应的1万个数字.这就是1万个目标输出(Target),每一个目标输出我们定义为:td ,是训练样例d的目标输出.我们的模型训练的目的是想找出,此人工神经网络模型的参数,比如权向量w等.要注意,目标输出td是已知的(非变量,比如5这张图,目标输出就是5这个数字),样本也是…