转载出处:http://blog.csdn.net/feifei884431/article/details/51429829

  • 背景介绍
  • 代码实现及结果
  • 小问题 
    • ResourceExhaustedError的原因及解决方式
    • Saver()进行模型存储及恢复
    • 再说一下DL的运行时间吧
  • 小结
  • 优质资源分享

背景介绍

做这件事的初衷有二: 
①做完入门级的,自然要进阶一下。 
②之前做到的准确率只有92%,据说进阶版可以把准确率做到99.2% 
步骤还是参考TensorFlow的中文教程,自然没有上次那么简单,有些坑掉进去了,好歹最后爬出来了,记录一下。 
这次用的不是一个单纯的一层输入+一层输出+softmax概率映射层的三层网络。多加了了两个隐藏层以及一个全连接层,相当于6层CNN了。


代码实现及结果

这个照着教程来做的话,感觉应该也没有问题,注意一些变量名的细节比如y_conv替代了原来的y,敲出来一般就能跑通啦。 
结果的话,没有做迭代次数以及cost函数的实验啦。就简单的一行。 
 
.9911的准确率,还可以吧应该。一是没有跑到2W次循环的训练,二是教程里面好像有说过他用GPU跑的结果,CPU的可以差一些。why?


小问题

①ResourceExhaustedError的原因及解决方式

码好之后,设置了2W的循环次数,15:17挂上开始跑,训练的速度有了明显变慢,到17:33去吃饭的时候只跑了17100次循环。饭罢回来傻眼啦,好长一串log,摘出主要的问题就是下图: 
 
ResourceExhaustedError是啥子? 
 
翻译过来是资源耗尽,不过不太理解,就去搜(承认没有去TensorFLow官网搜是我蠢,那里肯定有相应的说明),百度没得,Stack Overflow竟然也没得,后来在一个同学的吐槽里看到了这个Error。说他开了8G内存都跑不了海量数据,我这1G的难怪会遇到这种问题。大致计算了一下,这个矩阵的尺寸是10000x28x28x32,每个元素是一个float64占用8字节,所以这单个对象就需要占用1.87g的存储空间,还不算其他的系统运行内存和其他变量。肯定崩盘啦。 
解决办法呢?就是拆分呀。其实我发现训练的时候都是拿batch=50来做,test时一下用10000太大了,我的做法就是把test数据也分了10份,每份batchsize=1000,跑10次结果取accuracy的平均。由于取数据的接口在input_data.py里写好了,剩下的就是熟悉一下TensorFlow的语法就能写好。

accuracyResult = list(range(10))
for i in range(10):
batch = mnist.test.next_batch(1000)
accuResult[i] = accuracy.eval(feed_dict={x:batch[0],y_:batch[1],keep_prob:1.0})
print "Test accuracy:", numpy.mean(accuResult)

②Saver()进行模型存储及恢复

虽然后来这个拆分的test可以跑通了,不过之前训练的模型随着那个ResourceExhaustedError一并消失了,心好累。难道又要重跑(这一波必须重跑了TAT。。),难道以后都要这么伤?那就未必了。TensorFlow提供了Saver()这个类来解决Session参数的存储与恢复。具体的方法还是看存取教程吧。 
做的时候存模型比较顺利,制定5000次迭代就存一下,新的模型也可以覆盖之前同名模型,一个模型的大小竟然有38M。 
 
读取模型用于继续训练或者测试时需要再说一下: 
a.tf.train.Saver()的定义需要在Session()之前,否则会提示你错误。 
b.通过tf.train.Saver().restore进行恢复时,不需要进行变量的初始化,即Session.run(tf.initialize_all_variables())不用做,不过你的变量必须事先定义好。这一点不像matlab双击一下.mat文件就可以把.mat里面的所有参数导入当前workspace,不要期望在一个新的.py文件里导入模型参数就可以直接test了。 
当然这些问题的话,只要按照存取教程做,是不会遇到的,我当时就是嘉祥成matlab,想偷懒。

③再说一下运行时间吧

之前还蠢蠢的移位自己的单核1G内存阿里云服务器能hold住Machine Learning,真的是太天真啦。下面对比一下用时吧,同样的MNIST库55000个train_image和10000个test_image: 
之前用入门级的3层模型来训练10000次,每次batch100,只用30s不到。 
现在用的6层卷积神经网络训练10000次,每次100个batch,用了80分钟。 
差距还是蛮大的,更多的层数或者更多的数据就崩盘啦。其实相比平常用matlab做的通信仿真,13W秒跑一个case,这个时间还是能忍的哈。下次跑的时候也应该像matlab那样tic,toc一下,免得我自己手表计时啦。


小结

这两天做的也比较匆忙,只是实现了教程里面的入门内容,完成了个Hello World而已。如果做的有问题欢迎大家批评指正哈。接下来还有挺多需要学习,首要的两条: 
①流程框图,通信里面可以通过流程框图来描述一个系统,直观高效。之前实现的部分顶多算识别的一小块,真正的一个应用肯定还需要其他模块,图片获取、图片预处理(定位/size/去噪)、识别信息的转化及应用等。 
②NN,CNN的基础知识需要再巩固。


优质资源分享

深度学习路线看看大牛怎么说。 
视觉信息介绍,又一个典型的外国大牛写的深入浅出的理论分析,我也正在学习。虽然有些知识以前知道,不过看的目的是 巩固 or 从另一个角度看待问题。 
Stack Overflow 据说编程过程中遇到的95%的问题都能在这里找到。

Tensor的官网,TensorFlow函数介绍文档中文社区 
另一个教程,我就是从这儿找到TensorF中文社区的

跟着TensorFlow的进阶级教程实现MNIST库的训练的更多相关文章

  1. tensorflow笔记(四)之MNIST手写识别系列一

    tensorflow笔记(四)之MNIST手写识别系列一 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7436310.html ...

  2. TensorFlow 入门之手写识别(MNIST) softmax算法

    TensorFlow 入门之手写识别(MNIST) softmax算法 MNIST flyu6 softmax回归 softmax回归算法 TensorFlow实现softmax softmax回归算 ...

  3. tensorflow笔记(五)之MNIST手写识别系列二

    tensorflow笔记(五)之MNIST手写识别系列二 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7455233.html ...

  4. TensorFlow 之 手写数字识别MNIST

    官方文档: MNIST For ML Beginners - https://www.tensorflow.org/get_started/mnist/beginners Deep MNIST for ...

  5. TensorFlow 入门之手写识别(MNIST) softmax算法 二

    TensorFlow 入门之手写识别(MNIST) softmax算法 二 MNIST Fly softmax回归 softmax回归算法 TensorFlow实现softmax softmax回归算 ...

  6. TensorFlow 入门之手写识别(MNIST) 数据处理 一

    TensorFlow 入门之手写识别(MNIST) 数据处理 一 MNIST Fly softmax回归 准备数据 解压 与 重构 手写识别入门 MNIST手写数据集 图片以及标签的数据格式处理 准备 ...

  7. TensorFlow——LSTM长短期记忆神经网络处理Mnist数据集

    1.RNN(Recurrent Neural Network)循环神经网络模型 详见RNN循环神经网络:https://www.cnblogs.com/pinard/p/6509630.html 2. ...

  8. Ubuntu14.04+caffe+cuda7.5 环境搭建以及MNIST数据集的训练与测试

    Ubuntu14.04+caffe+cuda 环境搭建以及MNIST数据集的训练与测试 一.ubuntu14.04的安装: ubuntu的安装是一件十分简单的事情,这里给出一个参考教程: http:/ ...

  9. xpath教程 2 - lxml库

    xpath教程 2 - lxml库 这些就是XPath的语法内容,在运用到Python抓取时要先转换为xml. lxml库 lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HT ...

随机推荐

  1. elasticsearch的服务器响应异常及解决策略(转)

    详述: 1 _riverStatus Import_fail 问题描述: 发现有个索引的数据同步不完整,在 http://192.168.1.17:9200/_plugin/head/ 在browse ...

  2. BZOj 墨墨的等式(转化为最短路)题解

    题意:中文题意不解释... 思路:这道题居然可以转化为最短路orz,要等式有非负整数解,我们可以转化一下:每个ai不限数量,问你能用ai数组拼出多少个Bmin~Bmax范围内的数,有点像完全背包的感觉 ...

  3. Android移动软件开发总结

    目录 Android实验参考目录 常用知识点总结 服务绑定bind Service ThreadService使用总结 Service用法总结 Broadcast Receiver用法 Intent使 ...

  4. Anaconda中常用的用法

    Anaconda中常用的用法 conda 是开源包(packages)和虚拟环境(environment)的管理系统. packages 管理: 可以使用 conda 来安装.更新 .卸载工具包 ,并 ...

  5. BZOJ 3123 【SDOI2013】 森林

    题目链接:森林 这道题想法很显然.既然只有加边而没有删边,那么每次启发式合并就可以了.查询路径\(k\)小似乎需要主席树,那么把主席树和倍增表一起暴力重构就好了. 然后发现这样的空间复杂度是\(O(n ...

  6. hdu 2444 The Accomodation of Students 判断二分图+二分匹配

    The Accomodation of Students Time Limit: 5000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K ( ...

  7. Adapter Class/Object(适配器)

    意图: 将一个类的接口转换成客户希望的另外一个接口.Adapter 模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作. 适用性: 你想使用一个已经存在的类,而它的接口不符合你的需求. 你想 ...

  8. Java 字节的常用封装

    一. Java 的字节 byte (字节) 是 Java 中的基本数据类型,一个 byte 包含8个 bit(位),byte 的取值范围是-128到+127. byte 跟 Java 其他基本类型的关 ...

  9. Linux删除(清空)正在运行的应用日志文件内容 及 查看服务器剩余空间

    在测试环境定位问题时,如果发现日志文件内容太多或太大,有时需要删除该日志,如Tomcat,Nginx日志.以前每次都是先rm -rf ***.log,然后重启应用.直到后来发现了以下命令,原来可以不用 ...

  10. 构建工具 Ant、Maven和Gradle

    构建工具的作用 依赖管理 测试,打包,发布 主流的构建工具 Ant:提供编译,测试,打包 Maven:在Ant的基础上提供了依赖管理和发布的功能 Gradle:在Maven的基础上使用Groovy管理 ...