Batch Size:批尺寸.机器学习中参数更新的方法有三种: (1)Batch Gradient Descent,批梯度下降,遍历全部数据集计算一次损失函数,进行一次参数更新,这样得到的方向能够更加准确的指向极值的方向,但是计算开销大,速度慢: (2)Stochastic Gradient Descent,随机梯度下降,对每一个样本计算一次损失函数,进行一次参数更新,优点是速度快,缺点是方向波动大,忽东忽西,不能准确的指向极值的方向,有时甚至两次更新相互抵消: (3)Mini-batch Gr