from:https://www.zhihu.com/question/49346370

梯度爆炸了吧。

我的解决办法一般以下几条：
1、数据归一化（减均值，除方差，或者加入normalization，例如BN、L2 norm等）；
2、更换参数初始化方法（对于CNN，一般用xavier或者msra的初始化方法）；
3、减小学习率、减小batch size；
4、加入gradient clipping；

发布于 2016-09-04

仁孟

说明训练不收敛了, 学习率太大，步子迈的太大导致梯度爆炸等都是有可能的，另外也有可能是网络的问题，网络结构设计的有问题。
我现在的采用方式是：
1. 弱化场景，将你的样本简化，各个学习率等参数采用典型配置，比如10万样本都是同一张复制的，让这个网络去拟合，如果有问题，则是网络的问题。否则则是各个参数的问题。
2. 如果是网络的问题，则通过不断加大样本的复杂度和调整网络（调整拟合能力）来改变。
3. 参数的微调，我个人感觉是在网络的拟合能力和样本的复杂度匹配的情况下，就是可以train到一定水平，然后想进行进一步优化的时候采用。
4. 参数的微调，楼上说得几个也算是一种思路吧，其他的靠自己去积累，另外将weights可视化也是一个细调起来可以用的方法，现在digits tf里面都有相关的工具.

编辑于 2016-12-13

Scofield

不懂不会没听说过NLP

最近做了一组实验，每次在固定的迭代次数段，都会loss突然变nan，导致acc骤降，慢慢变0。

于是找啊找啊找bug……

很难受，在意志力的坚持下，找到海枯石烂终于知道了！

loss突然变nan的原因，很可惜并不是这里其他所有答主所说的“因为梯度爆炸”、“lr过大”、“不收敛”等等原因，而是因为training sample中出现了脏数据！

脏数据的出现导致我的logits计算出了0，0传给 $log(x|x=0) \rightarrow ∞,$ 即nan。

所以我通过设置batch_size = 1，shuffle = False，一步一步地将sample定位到了所有可能的脏数据，删掉。期间，删了好几个还依然会loss断崖为nan，不甘心，一直定位一直删。终于tm work out!

之所以会这样，是因为我的实验是实际业务上的真实数据，有实际经验的就知道的，现实的数据非常之脏，基本上数据预处理占据我80%的精力。

好怀念以前可以天真快乐的在open dataset上做task跑模型的时候，真是啥都不用管，专注模型算法……

编辑于 2018-02-03

匿名用户

在训练深度神经网络的时候，出现NaN比较大的可能是因为学习速率过大，梯度值过大，产生梯度爆炸。

During experimentation, once the gradient value grows extremely large, it causes an overflow (i.e. NaN) which is easily detectable at runtime; this issue is called the Gradient Explosion Problem.

参考斯坦福CS 224D的lecture note，我们也可以找到一些解决方法：
1. 加入Gradient clipping：每当梯度达到一定的阈值，就把他们设置回一个小一些的数字。
$\frac{\partial E}{\partial W} \rightarrow g$
$if \left| \left| g \right| \right| \geq threshold$ $then$
$\frac{threshlod}{\left| \left| g \right| \right| }g\rightarrow g$
$end$ $if$
2. 调整学习速率。学习速率过大会导致不能正常收敛，因此可以把学习速率适当调小一些。
3. 调整深度神经网络的结构。

To solve the problem of exploding gradients, Thomas Mikolov first
introduced a simple heuristic solution that clips gradients to a small
number whenever they explode. That is, whenever they reach a certain
threshold, they are set back to a small number as shown in Algorithm
1.
Figure 5 visualizes the effect of gradient clipping. It shows the decision
surface of a small recurrent neural network with respect to its
W matrix and its bias terms, b. The model consists of a single unit
of recurrent neural network running through a small number of timesteps;
the solid arrows illustrate the training progress on each gradient
descent step. When the gradient descent model hits the high error wall
in the objective function, the gradient is pushed off to a far-away location
on the decision surface. The clipping model produces the dashed
line where it instead pulls back the error gradient to somewhere close
to the original gradient landscape.

编辑于 2017-02-05

llh

用的是交叉熵cross_entropy = -tf.reduce_sum(y_*tf.log(y_conv))的话，最后softmax层输出y_conv的取值范围在[0,1]页就是说允许取0值，有log(0)出现很有可能出现nan啊，cross_entropy = -tf.reduce_mean(y_*tf.log(tf.clip_by_value(y_conv,1e-15,1.0)))在tensorflow里可以限定一下y_conv的取值范围，别的框架不清楚。

编辑于 2018-01-08

匿名用户

是不是用了tanh？

发布于 2016-12-12

相信很多人都遇到过训练一个deep model的过程中，loss突然变成了NaN。在这里对这个问题做一个总结。

一般来说，出现NaN有以下几种情况：

1.如果在迭代的100轮以内，出现NaN，一般情况下的原因是因为你的学习率过高，需要降低学习率。可以不断降低学习率直至不出现NaN为止，一般来说低于现有学习率1-10倍即可。

2.如果当前的网络是类似于RNN的循环神经网络的话，出现NaN可能是因为梯度爆炸的原因，一个有效的方式是增加“gradient clipping”（梯度截断来解决）

3.可能用0作为了除数;

4.可能0或者负数作为自然对数

5.需要计算loss的数组越界（尤其是自己，自定义了一个新的网络，可能出现这种情况）

6.在某些涉及指数计算，可能最后算得值为INF（无穷）（比如不做其他处理的softmax中分子分母需要计算exp（x），值过大，最后可能为INF/INF，得到NaN，此时你要确认你使用的softmax中在计算exp（x）做了相关处理（比如减去最大值等等））

参考：
http://russellsstewart.com/notes/0.html

tensorflow训练中出现nan问题

原创 2017年06月24日 14:16:22

深度学习中对于网络的训练是参数更新的过程，需要注意一种情况就是输入数据未做归一化时，如果前向传播结果已经是[0,0,0,1,0,0,0,0]这种形式，而真实结果是[1,0,0,0,0,0,0,0,0]，此时由于得出的结论不惧有概率性，而是错误的估计值，此时反向传播会使得权重和偏置值变的无穷大，导致数据溢出，也就出现了nan的问题。

解决办法：

1、对输入数据进行归一化处理，如将输入的图片数据除以255将其转化成0-1之间的数据;

2、对于层数较多的情况，各层都做batch_nomorlization;

3、对设置Weights权重使用tf.truncated_normal(0, 0.01, [3,3,1,64])生成，同时值的均值为0，方差要小一些;

4、激活函数可以使用tanh;

5、减小学习率lr。

from：http://blog.csdn.net/fireflychh/article/details/73691373

使用caffe训练时Loss变为nan的原因

梯度爆炸

原因：梯度变得非常大，使得学习过程难以继续

现象：观察log，注意每一轮迭代后的loss。loss随着每轮迭代越来越大，最终超过了浮点型表示的范围，就变成了NaN。

措施：
1. 减小solver.prototxt中的base_lr，至少减小一个数量级。如果有多个loss layer，需要找出哪个损失层导致了梯度爆炸，并在train_val.prototxt中减小该层的loss_weight，而非是减小通用的base_lr。
2. 设置clip gradient，用于限制过大的diff

不当的损失函数

原因：有时候损失层中loss的计算可能导致NaN的出现。比如，给InfogainLoss层（信息熵损失）输入没有归一化的值，使用带有bug的自定义损失层等等。

现象：观测训练产生的log时一开始并不能看到异常，loss也在逐步的降低，但突然之间NaN就出现了。

措施：看看你是否能重现这个错误，在loss layer中加入一些输出以进行调试。

示例：有一次我使用的loss归一化了batch中label错误的次数。如果某个label从未在batch中出现过，loss就会变成NaN。在这种情况下，可以用足够大的batch来尽量避免这个错误。

不当的输入

原因：输入中就含有NaN。

现象：每当学习的过程中碰到这个错误的输入，就会变成NaN。观察log的时候也许不能察觉任何异常，loss逐步的降低，但突然间就变成NaN了。

措施：重整你的数据集，确保训练集和验证集里面没有损坏的图片。调试中你可以使用一个简单的网络来读取输入层，有一个缺省的loss，并过一遍所有输入，如果其中有错误的输入，这个缺省的层也会产生NaN。

案例：有一次公司需要训练一个模型，把标注好的图片放在了七牛上，拉下来的时候发生了dns劫持，有一张图片被换成了淘宝的购物二维码，且这个二维码格式与原图的格式不符合，因此成为了一张“损坏”图片。每次训练遇到这个图片的时候就会产生NaN。良好的习惯是，你有一个检测性的网络，每次训练目标网络之前把所有的样本在这个检测性的网络里面过一遍，去掉非法值。

池化层中步长比核的尺寸大

如下例所示，当池化层中stride > kernel的时候会在y中产生NaN

    layer {

      name: "faulty_pooling"

      type: "Pooling"

      bottom: "x"

      top: "y"

      pooling_param {

      pool: AVE

      stride: 5

      kernel: 3

      }

    }

致谢

http://stackoverflow.com/questions/33962226/common-causes-of-NaNs-during-training

from：http://blog.csdn.net/huangynn/article/details/52947894

训练深度学习网络时候，出现Nan是什么原因，怎么才能避免？——我自己是因为data有nan的坏数据，clear下解决的更多相关文章

训练深度学习网络时候，出现Nan 或者震荡
出现Nan : 说法1: 说法2:说法3: 震荡 : 分析原因: 1:训练的batch_size太小 1. 当数据量足够大的时候可以适当的减小batch_size,由于数据量太大,内存不够 ...
<深度学习优化策略-3> 深度学习网络加速器Weight Normalization_WN
前面我们学习过深度学习中用于加速网络训练.提升网络泛化能力的两种策略:Batch Normalization(Batch Normalization)和Layer Normalization(LN). ...
如何可视化深度学习网络中Attention层
前言在训练深度学习模型时,常想一窥网络结构中的attention层权重分布,观察序列输入的哪些词或者词组合是网络比较care的.在小论文中主要研究了关于词性POS对输入序列的注意力机制.同时对比实验 ...
使用GOOGLE COLAB训练深度学习模型
使用谷歌提供了免费的K80的GPU用于训练深度学习的模型.而且最赞的是以notebook的形式提供,完全可以做到开箱即用.你可以从Google driver处打开.或者这里默认创建的是没有GPU的 ...
利用Tengine在树莓派上跑深度学习网络
树莓派是国内比较流行的一款卡片式计算机,但是受限于其硬件配置,用树莓派玩深度学习似乎有些艰难.最近OPENAI为嵌入式设备推出了一款AI框架Tengine,其对于配置的要求相比传统框架降低了很多,我尝 ...
【神经网络与深度学习】chainer边运行边定义的方法使构建深度学习网络变的灵活简单
Chainer是一个专门为高效研究和开发深度学习算法而设计的开源框架. 这篇博文会通过一些例子简要地介绍一下Chainer,同时把它与其他一些框架做比较,比如Caffe.Theano.Torch和Te ...
用 Java 训练深度学习模型，原来可以这么简单！
本文适合有 Java 基础的人群作者:DJL-Keerthan&Lanking HelloGitHub 推出的<讲解开源项目> 系列.这一期是由亚马逊工程师:Keerthan V ...
深度学习网络结构中超参数momentum了解
训练网络时,通常先对网络的初始权值按照某种分布进行初始化,如:高斯分布.初始化权值操作对最终网络的性能影响比较大,合适的网络初始权值能够使得损失函数在训练过程中的收敛速度更快,从而获得更好的优化结果. ...
CV3——学习笔记-实战项目（上）：如何搭建和训练一个深度学习网络
http://www.mooc.ai/course/353/learn?lessonid=2289&groupId=0#lesson/2289 1.AlexNet, VGGNet, Googl ...

随机推荐

笔试算法题（43）：布隆过滤器（Bloom Filter）
议题:布隆过滤器(Bloom Filter) 分析: BF由一个很长的二进制向量和一系列随机映射的函数组成,通过多个Hash函数将一个元素映射到一个Bit Array中的多个点,查询的时候仅当所有的映 ...
C#基础学习（二）
---恢复内容开始--- 面向对象 (类是不占内存,实例占内存) C#与python不用可以直接从另一个文件直接实例化一个类,不需要导包: ...
在Linux中CSV转换成XLSX
在linux中,把csv文件转换成excel表格(xlsx或者xls) $ echo -e 'surname,name,age\nCarlo,Smith,23\nJohn,Doe,46\nJane,D ...
搭建Samba共享服务器
[root@localhost ~]# yum -y install samba #安装Samba [root@localhost ~]# rpm -qa | grep samba ...
Mysql：零散记录
limit用法查询第4行记录 select * from tablename limit 3,1; limit 3,1:截取第3行加1行的数据查询第6-15行 select * from tabl ...
去面试Python工程师，这几个基础问题一定要能回答，Python面试题No4
今天的面试题以基础为主,去面试Python工程师,这几个基础问题不能答错第1题:列表和元组有什么不同? 列表和元组是Python中最常用的两种数据结构,字典是第三种. 相同点: 都是序列都可以存储 ...
第十七节：Scrapy爬虫框架之item.py文件以及spider中使用item
Scrapy原理图: item位于原理图的最左边 item.py文件是报存爬取数据的容器,他使用的方法和字典很相似,但是相比字典item多了额外的保护机制,可以避免拼写错误或者定义错误. 1.创建it ...
杭电 2111 Saving HDU （贪心）
Description 话说上回讲到海东集团面临内外交困,公司的元老也只剩下XHD夫妇二人了.显然,作为多年拼搏的商人,XHD不会坐以待毙的. 一天,当他正在苦思冥想解困良策的时候,突然想到了自己 ...
<转> 二分图多重匹配问题
在二分图最大匹配中,每个点(不管是X方点还是Y方点)最多只能和一条匹配边相关联,然而,我们经常遇到这种问题,即二分图匹配中一个点可以和多条匹配边相关联,但有上限,或者说,Li表示点i最多可以和多少条匹 ...
[luoguP1896] [SCOI2005]互不侵犯King（状压DP）
传送门先预处理出来一行中放置国王的所有情况和每种情况所用的国王个数. f[i][j][k]表示前i行放j个国王且最后一行的状态为k的方案数状压DP即可 #include <cstdio> ...

训练深度学习网络时候，出现Nan是什么原因，怎么才能避免？——我自己是因为data有nan的坏数据，clear下解决