解决tensorflow在训练的时候权重是nan问题

搭建普通的卷积CNN网络。

nan表示的是无穷或者是非数值，比如说你在tensorflow中使用一个数除以0，那么得到的结果就是nan。

在一个matrix中，如果其中的值都为nan很有可能是因为采用的cost function不合理导致的。

当使用tensorflow构建一个最简单的神经网络的时候，按照tensorflow官方给出的教程：

https://www.tensorflow.org/get_started/mnist/beginners

http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/mnist_beginners.html （中文教程）

具体的含义就不解释了。大概分为三个部分：1，导入数据集；2，搭建模型，并且定义cost function（也叫loss function）；3，训练。

对于过程1，我们采用的不是mnist数据集，而是自己定义了一个数据集，其中

对于过程2，我们使用最简单的CNN网络，然后定义cost function的方式是：

cross_entropy = -tf.reduce_sum(y_*tf.log(y))

对于过程3，我们也采用教程中的例子去训练。

但是在初始化W后就立刻查看W参数的结果，得到的结果都是nan，以下是输出W权重后的结果：

这个现象是由于cost function引起的：

cross_entropy = -tf.reduce_sum(y_*tf.log(y))

上面的语句中的y_是数据集的label。我们做的是显著性检测，就是数据集的ground truth。

并且这个label或者ground truth一定要是one hot类型的变量。

那什么是one hot类型的变量呢？

举一个例子：比如一个5个类的数据集，用0,1,2,3,4来表示5个类的标签，因此label=0,1,2,3,4。这时候有的人会把y_=0,1,2,3,4。直接输入到cost function——-tf.reduce_sum(y_*tf.log(y))中，那么这样会导致W参数初始化都是nan。

解决办法就是我们把label=0,1,2,3,4变为one hot变量，改变后的结果是：label=[1,0,0,0,0],[0,1,0,0,0],[0,0,1,0,0],[0,0,0,1,0],[0,0,0,0,1]，这样再输入到tf.reduce_sum(y_*tf.log(y))中，就是正确的了,如下图，我们采用的解决办法是第二种，具体参考下文。

那么本文提供两种方法来解决这个问题：

1，将y_从原来的类别数字变为one hot变量，使用

labels = tf.reshape(labels, [batch_size, 1])
indices = tf.reshape(tf.range(0, batch_size, 1), [batch_size, 1])
labels = tf.sparse_to_dense(
    tf.concat(values=[indices, labels], axis=1),
    [batch_size, num_classes], 1.0, 0.0)

将label转为one hot（batch_size是你每次抓取的训练集的个数）

2，换一个cost function，原来的cost function = -tf.reduce_sum(y_*tf.log(y))

使用的是交叉熵函数，现在我们换成二次代价函数 cost function = tf.reduce_sum(tf.square(tf.substract(y_,y)))

解决tensorflow在训练的时候权重是nan问题的更多相关文章

在 C/C++ 中使用 TensorFlow 预训练好的模型—— 直接调用Ｃ++ 接口实现
现在的深度学习框架一般都是基于 Python 来实现,构建.训练.保存和调用模型都可以很容易地在 Python 下完成.但有时候,我们在实际应用这些模型的时候可能需要在其他编程语言下进行,本文将通过直 ...
深度学习笔记 (二) 在TensorFlow上训练一个多层卷积神经网络
上一篇笔记主要介绍了卷积神经网络相关的基础知识.在本篇笔记中,将参考TensorFlow官方文档使用mnist数据集,在TensorFlow上训练一个多层卷积神经网络. 下载并导入mnist数据集首 ...
安装 tensorflow 1.1.0；以及安装其他相似版本tensorflow遇到的问题；tensorflow 1.13.2 cuda-10环境变量配置问题；Tensorflow 指定训练时如何指定使用的GPU；
# 安装 2.7 环境conda create -n python2. python= conda activate python2. # 安装 1.1.0 gpu版本pip # 配置环境变量expo ...
解决tensorflow Saver.restore()无效的问题
解决tensorflow 的 Saver.restore()无法从本地读取变量的问题最近做tensorflow 手写数字识别的时候遇到了一个问题,Saver的restore()方法无法从本地恢复变量 ...
tensorflow分布式训练
https://blog.csdn.net/hjimce/article/details/61197190 tensorflow分布式训练 https://cloud.tencent.com/dev ...
Tensorflow Mask-RCNN训练识别箱子的模型运行结果（练习）
Tensorflow Mask-RCNN训练识别箱子的模型
在 C/C++ 中使用 TensorFlow 预训练好的模型—— 间接调用 Python 实现
现在的深度学习框架一般都是基于 Python 来实现,构建.训练.保存和调用模型都可以很容易地在 Python 下完成.但有时候,我们在实际应用这些模型的时候可能需要在其他编程语言下进行,本文将通过 ...
利用阿里云容器服务打通TensorFlow持续训练链路
本系列将利用Docker和阿里云容器服务,帮助您上手TensorFlow的机器学习方案第一篇:打造TensorFlow的实验环境第二篇:轻松搭建TensorFlow Serving集群第三篇:打 ...
在C#下使用TensorFlow.NET训练自己的数据集
在C#下使用TensorFlow.NET训练自己的数据集今天,我结合代码来详细介绍如何使用 SciSharp STACK 的 TensorFlow.NET 来训练CNN模型,该模型主要实现图像的分 ...

随机推荐

【Atcoder】AGC027 题解
A - Candy Distribution Again 大意:有x个糖给n个小朋友,必须分完,小朋友得到糖数为一个确切值的时候小朋友会开心,求最多的开心数题解直接排序然后贪心分,如果分到最后一个 ...
web理论知识--HTML结构及标签
一.参考书籍: <Web 前端开发 HTML5+CSS3+jQuery+AJAX 从学到用完美实践> 备注:本书为工具书. 二.HTML5元素: 按功能划分:基础.格式.表单.框架.图像. ...
我现所认知的SSH
实习了三个月,对着SSH有着一定的认识了,就以自已认识的大概思路写一篇文章吧,留给以后的自已,也恳请各位博友们如果看到我的认识有过错的地方能帮我指正过来! 我用到的资料在写正文之前,先说说我这段时间 ...
View的工作原理(一) 总览View的工作流程
View的工作原理(一) 总览View的工作流程学习自 <Android开发艺术探索> 简书博主-丶蓝天白云梦 Overview 从本章开始,开始学习View的工作原理,包括View的 ...
用python做一个图片验证码
看一下做出来的验证码长啥样验证码分析 1. 有很多点 2. 有很多线条 3. 有字母,有数字需要用到的模块: 1. random 2. Pillow (python3中使用pillow) 安装p ...
Prim算法和Kruskal算法
Prim算法和Kruskal算法都能从连通图找出最小生成树.区别在于Prim算法是以某个顶点出发挨个找,而Kruskal是先排序边,每次选出最短距离的边再找. 一.Prim(普里姆算法)算法: ...
KVM和QEMU简介
KVM/QEMU简介 KVM虚拟机是基于linux内核虚拟化,自linux2.6.20之后就集成在linux的各个主要发行版本中.它使用linux自身的调度器进行管理,所以相对于xen,其核心源码很少 ...
win10 下配置php环境变量
注意,只需要配置到目录即可:
让IIS支持10万并发
适用的IIS版本:IIS 7.0, IIS 7.5, IIS 8.0 适用的Windows版本:Windows Server 2008, Windows Server 2008 R2, Windows ...
SGU 275. To xor or not to xor （高斯消元法）
题目链接:http://acm.sgu.ru/problem.php?contest=0&problem=275 题意:给你n个数,可以选择任意个数异或,但是要使得最后的异或值最大. 我们把每 ...

解决tensorflow在训练的时候权重是nan问题

解决tensorflow在训练的时候权重是nan问题的更多相关文章

随机推荐

热门专题