之前训练模型,认为网络图构建完成,Loss肯定是呈现下降的,就没有太留心,知识关注F1的变化情况,找到最优的F1训练就停止了,认为模型就ok. 但实际中发现,我们要时刻关注网络的损失变化情况,batch size过小(6,8)都会导致模型不收敛,此时你就看不到损失的变化,只能根据F1优劣判断模型. 那么,我们可以将batc size调的大一些(128),可以观察到损失是平滑降低的,F1的性能也在慢慢变好.这就是通常大家用128的原因.关于迭代停止条件, 一般选20个epochs的迭代,每一次迭代…