在梯度下降法中,批量指的是用于在单次迭代中计算梯度的样本总数.到目前为止,我们一直假定批量是指整个数据集.就 Google 的规模而言,数据集通常包含数十亿甚至数千亿个样本.此外,Google 数据集通常包含海量特征.因此,一个批量可能相当巨大.如果是超大批量,则单次迭代就可能要花费很长时间进行计算. 包含随机抽样样本的大型数据集可能包含冗余数据.实际上,批量大小越大,出现冗余的可能性就越高.一些冗余可能有助于消除杂乱的梯度,但超大批量所具备的预测价值往往并不比大型批量高. 如果我们可以通过更少…