MNIST-神经网络的经典实践

MNIST手写体数字识别是神经网络的一个经典的入门案例，堪称深度学习界的”Hello Word任务”。

本博客基于python语言，在TensorFlow框架上对其进行了复现，并作了详细的注释，希望有参考作用。

import tensorflow as tf

from tensorflow.examples.tutorials.mnist import input_data

mnist = input_data.read_data_sets("D:\ClassStudy\ImageProcessing\MNIST_DATA", one_hot=True)

batch_size = 100  #batch大小为100，训练样本为55000，那么总共有5500个batch

learning_rate = 0.8

learning_rate_decay = 0.999

max_steps = 30000  #最大训练步数

training_step = tf.Variable(0,trainable=False)  #定义存储训练轮数的变量，一般将其设置为不可训练的，完成一个batch即完成一轮训练

def hidden_layer(input_tensor,weights1,biases1,weights2,biases2,layer_name):

    '''

    定义得到隐藏层和输出层的前向传播计算方式，采用relu()激活函数

    '''

    layer1=tf.nn.relu(tf.matmul(input_tensor,weights1)+biases1)

    return tf.matmul(layer1,weights2)+biases2

x = tf.placeholder(tf.float32,[None,784],name='x-input')

y_ = tf.placeholder(tf.float32,[None,10],name='y-output')

#生成隐藏层权重参数，生成的是784*500的数组，总共392000个参数，500是经验值，实际多少都可以

weights1 = tf.Variable(tf.truncated_normal([784,500],stddev=0.1))

biases1 = tf.Variable(tf.constant(0.1,shape=[500]))

#生成输出层权重参数，生成的是500*10的数组，总共5000个参数，这里的500为了跟隐藏层的输出矩阵列数500对应，10是要求输出必须为10列，因为总共0-9就是10个分类

weights2 = tf.Variable(tf.truncated_normal([500,10],stddev=0.1))

biases2 = tf.Variable(tf.constant(0.1,shape=[10]))

#计算经过神经网络前向传播后得到的y值，这个y是一个10列的矩阵

y = hidden_layer(x,weights1,biases1,weights2,biases2,'y')

'''

为了在采用随机梯度下降算法训练神经网络时提高最终模型在测试数据上的表现，TensorFlow提供了一种在变量上使用滑动平均的方法，通常称之为滑动平均模型

'''

#通过train.ExponentialMovingAverage()函数初始化一个滑动平均类，同时需要向函数提供一个衰减率参数，这个衰减率控制模型更新的速度。

#滑动平均算法会对每一个变量的影子变量（shadow_variable）进行维护，这个影子变量的初始值就是相应变量的初始值。如果变量发生变化，影子变量也会按照一定的规则更新。

#衰减率决定了滑动平均模型的更新速度，一般设成接近于1，且越大模型越趋于稳。

averages_class = tf.train.ExponentialMovingAverage(0.99,training_step)

#通过滑动平均类的apply函数提供要进行滑动平均计算的变量

averages_op = averages_class.apply(tf.trainable_variables())

#average()函数是滑动平均类的一个函数，这个函数真正执行了影子变量的计算。在使用时，对其传入需要进行计算的变量即可。

#这里再次计算y值，使用了滑动平均，但是要牢记滑动平均值只是一个影子变量。

average_y = hidden_layer(x,averages_class.average(weights1),

                         averages_class.average(biases1),

                         averages_class.average(weights2),

                         averages_class.average(biases2),'average_y')

#计算交叉熵损失，用到的这个函数适用于输入的样本只能被划分为某一类的情况，特别适合于我们这个任务。

cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y,labels=tf.argmax(y_,1))

#在得到交叉熵之后，我们可以计算权重的L2正则，并将正则损失和交叉熵损失糅合在一起计算总损失

regularizer = tf.contrib.layers.l2_regularizer(0.0001)

regularization = regularizer(weights1)+regularizer(weights2)

#总损失

loss = tf.reduce_mean(cross_entropy)+regularization

#总损失确定好了，还需要一个优化器。这里采用原理最简单的随机梯度下降优化器，学习率采用指数衰减的形式，优化器类的minimize()函数指明了最小化的目标。

learning_rate = tf.train.exponential_decay(learning_rate,training_step,mnist.train.num_examples/batch_size,learning_rate_decay)

train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss,global_step=training_step)

#在训练这个模型时，每过一遍数据既需要通过反向传播来更新神经网络中的参数，又需要更新每一个参数的滑动平均值，control_dependencies()用于完成这样的一次性多次操作

with tf.control_dependencies([train_step,averages_op]):

    train_op = tf.no_op(name='train')

#检查使用了滑动平均值模型的神经网络前向传播结果是否正确

#equal()函数用于判断两个张量的每一位数组是否相等

#如果相等则返回true，否则返回false

crorent_predicition = tf.equal(tf.arg_max(average_y,1),tf.arg_max(y_,1))

#cast()函数原型为cast(x, DstT, name)，在这里用于将一个布尔型的数据转换为float32类型

#之后对得到的float32类型数据求平均值，这个平均值就是模型在这一组数据上的正确率

accuracy = tf.reduce_mean(tf.cast(crorent_predicition,tf.float32))

'''

以上都完成之后，就可以创建会话并开始训练了

'''

with tf.Session() as sess:

    #对参数进行初始化

    tf.global_variables_initializer().run()

    #准备验证数据

    validate_feed = {x:mnist.validation.images,y_:mnist.validation.labels}

    #准备测试数据

    test_feed = {x:mnist.test.images,y_:mnist.test.labels}

    #循环训练，最大训练步数（轮数），训练一个batch为一轮

    for i in range(max_steps):

        if i % 1000 == 0:

            #计算滑动平均模型在验证数据上的结果

            #为了能得到百分数输出，需要将validate_accuracy扩大100倍

            validate_accuracy = sess.run(accuracy, feed_dict=validate_feed)

            print('After %d training step(s), validation accuracy'

                  'using average model is %g%%' % (i,validate_accuracy*100))

        #train.next_batch()函数通过设置函数的batch_size参数就可以从所有的训练数据中读取一小部分作为一个训练的batch

        xs,ys = mnist.train.next_batch(batch_size=100)

        sess.run(train_op,feed_dict={x:xs,y_:ys})

    #使用测试数据集最终验证正确率，同样为了得到得到百分数输出，需要扩大100倍

    test_accuracy = sess.run(accuracy,feed_dict=test_feed)

    print('After %d training step(s), test accuracy using average'

          'model is %g%%' % (max_steps,test_accuracy*100))

　　输出结果：

After 0 training step(s), validation accuracyusing average model is 7.4%

After 1000 training step(s), validation accuracyusing average model is 97.82%

After 2000 training step(s), validation accuracyusing average model is 98.1%

After 3000 training step(s), validation accuracyusing average model is 98.36%

After 4000 training step(s), validation accuracyusing average model is 98.38%

After 5000 training step(s), validation accuracyusing average model is 98.48%

After 6000 training step(s), validation accuracyusing average model is 98.36%

After 7000 training step(s), validation accuracyusing average model is 98.5%

After 8000 training step(s), validation accuracyusing average model is 98.4%

After 9000 training step(s), validation accuracyusing average model is 98.52%

After 10000 training step(s), validation accuracyusing average model is 98.5%

After 11000 training step(s), validation accuracyusing average model is 98.6%

After 12000 training step(s), validation accuracyusing average model is 98.48%

After 13000 training step(s), validation accuracyusing average model is 98.56%

After 14000 training step(s), validation accuracyusing average model is 98.54%

After 15000 training step(s), validation accuracyusing average model is 98.6%

After 16000 training step(s), validation accuracyusing average model is 98.6%

After 17000 training step(s), validation accuracyusing average model is 98.62%

After 18000 training step(s), validation accuracyusing average model is 98.56%

After 19000 training step(s), validation accuracyusing average model is 98.66%

After 20000 training step(s), validation accuracyusing average model is 98.6%

After 21000 training step(s), validation accuracyusing average model is 98.7%

After 22000 training step(s), validation accuracyusing average model is 98.6%

After 23000 training step(s), validation accuracyusing average model is 98.54%

After 24000 training step(s), validation accuracyusing average model is 98.6%

After 25000 training step(s), validation accuracyusing average model is 98.64%

After 26000 training step(s), validation accuracyusing average model is 98.64%

After 27000 training step(s), validation accuracyusing average model is 98.6%

After 28000 training step(s), validation accuracyusing average model is 98.56%

After 29000 training step(s), validation accuracyusing average model is 98.52%

After 30000 training step(s), test accuracy using averagemodel is 98.4%

MNIST-神经网络的经典实践的更多相关文章

深度学习——卷积神经网络的经典网络（LeNet-5、AlexNet、ZFNet、VGG-16、GoogLeNet、ResNet）
一.CNN卷积神经网络的经典网络综述下面图片参照博客:http://blog.csdn.net/cyh_24/article/details/51440344 二.LeNet-5网络输入尺寸:32 ...
第十三节，卷积神经网络之经典网络LeNet-5、AlexNet、VGG-16、ResNet(三)(后面附有一些网络英文翻译文章链接)
一实例探索上一节我们介绍了卷积神经网络的基本构建,比如卷积层.池化层以及全连接层这些组件.事实上,过去几年计算机视觉研究中的大量研究都集中在如何把这些基本构件组合起来,形成有效的卷积神经网络.最直 ...
MNIST神经网络的训练
import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data 1.设置输入和输出节点的个数,配置 ...
深度学习方法（五）：卷积神经网络CNN经典模型整理Lenet，Alexnet，Googlenet，VGG，Deep Residual Learning
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 关于卷积神经网络CNN,网络和文献中 ...
数据挖掘系列（9）——BP神经网络算法与实践
神经网络曾经很火,有过一段低迷期,现在因为深度学习的原因继续火起来了.神经网络有很多种:前向传输网络.反向传输网络.递归神经网络.卷积神经网络等.本文介绍基本的反向传输神经网络(Backpropaga ...
Oracle调优总结(经典实践重要)
转载:http://langgufu.iteye.com/blog/1974211 Problem Description:1.每个表的结构及主键索引情况2.每个表的count(*)记录是多少3.对于 ...
神经网络JOONE的实践
什么是joone Joone是一个免费的神经网络框架来创建,训练和测试人造神经网络.目标是为最热门的Java技术创造一个强大的环境,为热情和专业的用户. Joone由一个中央引擎组成,这是Joone开 ...
第十四节，卷积神经网络之经典网络Inception(四)
一 1x1卷积在架构内容设计方面,其中一个比较有帮助的想法是使用 1×1 卷积.也许你会好奇,1×1 的卷积能做什么呢?不就是乘以数字么?听上去挺好笑的,结果并非如此,我们来具体看看. 过滤器为 1 ...
卷积神经网络CNN经典模型整理Lenet，Alexnet，Googlenet，VGG，Deep Residual Learning（转）
参考:http://blog.csdn.net/xbinworld/article/details/45619685

随机推荐

用arthas的watch方法观察执行方法的输入输出
watch 的参数比较多,主要是因为它能在 4 个不同的场景观察对象参数名称参数说明 class-pattern 类名表达式匹配 method-pattern 方法名表达式匹配 express 观 ...
fis3打包中的一些注意事项
1.在html文件中,如果在标签的style属性内添加路径,fis不会识别改路径并打包,如 2.fis主要针对静态文件进行打包.对其他文件打包会出现一些问题. 比如jsp页面.下面的例子script. ...
C#开发BIMFACE系列29 服务端API之获取模型数据14：获取图纸列表
系列目录 [已更新最新开发文章,点击查看详细] 一个三维模型中可能包含对应多张二维图纸列表,本篇主要介绍如何获取模型文件对应的图纸列表. 请求地址:GET https://api.bimfac ...
CSharpGL(55)我是这样理解PBR的
CSharpGL(55)我是这样理解PBR的简介 PBR(Physically Based Rendering),基于物理的渲染,据说是目前最先进的实时渲染方法.它比Blinn-Phong方法的真实 ...
Hibernate 知识收纳.
一.乐观锁和悲观锁悲观锁(Pessimistic Lock), 顾名思义,就是很悲观,每次去拿数据的时候都认为别人会修改,所以每次在拿数据的时候都会上锁,这样别人想拿这个数据就会block直到它拿 ...
yii2自定义验证规则
Python爬取知乎上搞笑视频，一顿爆笑送给大家
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:Huangwei AI 来源:Python与机器学习之路 PS:如有需 ...
Flask笔记：RESTful
RESTful是用于前台和后端进行通信的一种规范或者说一种风格,采用的是HTTP和HTTPS协议,数据传输的格式使用的都是JSON,而不是XML.通常,RESTful的URL中只有名词,没有动词,而且 ...
Python【day 13】内置函数02
一.作用域相关-2个 1.locals() 参数是空返回当前位置作用域的所有变量,返回的是字典当前位置:函数内,返回局部变量当前位置:函数外,返回全局变量 2.globals() 参数是空返回 ...
js获取当前日期一年的第几周
获取当前日期一年中的第几周 function theWeek() { ; now = new Date(); years = now.getYear() ) years += ); days[] = ...

MNIST-神经网络的经典实践

MNIST-神经网络的经典实践的更多相关文章

随机推荐

热门专题