今天跑一个模型,程序都没变,就配置文件变了.但是总是很快就显示loss为nan. 检查配置文件还是不行,把其中loss改为0还是不行.最后搁置了一下,再回头对比一下电脑上的和服务器上的,发现一个配置文件的初始学习率设置是0.01,而我要做的是ft,要从0.001开始,于是改掉从新跑上模型.大松一口气啊,一天折腾下来,终于找到原因了,想到我是直接从原始训练模型哪里拷贝的配置文件,学习率却忘记调整了.正好看到同事说这个问题大多是参数设置的问题,不会是数据的问题,更是松了一口气啊. 模型训练需要积累的