前言 我们在训练网络的时候经常会设置 batch_size,这个 batch_size 究竟是做什么用的,一万张图的数据集,应该设置为多大呢,设置为 1.10.100 或者是 10000 究竟有什么区别呢? # 手写数字识别网络训练方法 network.fit( train_images, train_labels, epochs=5, batch_size=128) 批量梯度下降(Batch Gradient Descent,BGD) 梯度下降算法一般用来最小化损失函数:把原始的数据网络喂给网…