1.样本要随机化,防止大数据淹没小数据 2.样本要做归一化.关于归一化的好处请参考:为何需要归一化处理3.激活函数要视样本输入选择(多层神经网络一般使用relu)4.mini batch很重要,几百是比较合适的(很大数据量的情况下)5.学习速率(learning rate)很重要,比如一开始可以lr设置为0.01,然后运行到loss不怎么降的时候,学习速率除以10,接着训练6.权重初始化,可用高斯分布乘上一个很小的数,这个可以看:权值初始化 7.Adam收敛速度的确要快一些,可结果往往没有sgd