def model1(input, is_training, keep_prob):
    input = tf.reshape(input, shape=[-1, 28, 28, 1])
    batch_norm_params = {
        'decay': 0.95,
        'updates_collections': None
    }
    with slim.arg_scope([slim.batch_norm, slim.dropout], is_training=is_training):
        with slim.arg_scope([slim.conv2d, slim.fully_connected],
                            weights_initializer=tf.truncated_normal_initializer(stddev=0.1),
                                normalizer_fn=slim.batch_norm, normalizer_params=batch_norm_params,
                            activation_fn=tf.nn.crelu):
            conv1 = slim.conv2d(input, 16, 5, scope='conv1')
            pool1 = slim.max_pool2d(conv1, 2, scope='pool1')
            conv2 = slim.conv2d(pool1, 32, 5, scope='conv2')
            pool2 = slim.max_pool2d(conv2, 2, scope='pool2')
            flatten = slim.flatten(pool2)
            fc = slim.fully_connected(flatten, 1024, scope='fc1')
            print(fc.get_shape())
            drop = slim.dropout(fc, keep_prob=keep_prob)
            logits = slim.fully_connected(drop, 10, activation_fn=None, scope='logits')
            return logits

def model2(input, is_training, keep_prob):
    input = tf.reshape(input, shape=[-1, 28, 28, 1])
    with slim.arg_scope([slim.conv2d, slim.fully_connected],
                        weights_initializer=tf.truncated_normal_initializer(stddev=0.1),
                            normalizer_fn=None, activation_fn=tf.nn.crelu):
        with slim.arg_scope([slim.dropout], is_training=is_training):
            conv1 = slim.conv2d(input, 16, 5, scope='conv1')
            pool1 = slim.max_pool2d(conv1, 2, scope='pool1')
            conv2 = slim.conv2d(pool1, 32, 5, scope='conv2')
            pool2 = slim.max_pool2d(conv2, 2, scope='pool2')
            flatten = slim.flatten(pool2)
            fc = slim.fully_connected(flatten, 1024, scope='fc1')
            print(fc.get_shape())
            drop = slim.dropout(fc, keep_prob=keep_prob)
            logits = slim.fully_connected(drop, 10, activation_fn=None, scope='logits')
            return logits

构建训练函数

def train(model, model_path, train_log_path, test_log_path):
    # 计算图
    graph = tf.Graph()
    with graph.as_default():
        X = tf.placeholder(dtype=tf.float32, shape=[None, 28 * 28])
        Y = tf.placeholder(dtype=tf.float32, shape=[None, 10])
        is_training = tf.placeholder(dtype=tf.bool)
        logit = model(X, is_training, 0.7)
        loss =tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=logit, labels=Y))
        accuray = tf.reduce_mean(tf.cast(tf.equal(tf.argmax(logit, 1), tf.argmax(Y, 1)), tf.float32))
        global_step = tf.Variable(0, trainable=False)
        learning_rate = tf.train.exponential_decay(0.1, global_step, 1000, 0.95, staircase=True)
        optimizer = tf.train.AdagradOptimizer(learning_rate=learning_rate)
        update = slim.learning.create_train_op(loss, optimizer, global_step)
        mnist = input_data.read_data_sets("tmp", one_hot=True)
        saver = tf.train.Saver()
        tf.summary.scalar("loss", loss)
        tf.summary.scalar("accuracy", accuray)
        merged_summary_op = tf.summary.merge_all()
        train_summary_writter = tf.summary.FileWriter(train_log_path, graph=tf.get_default_graph())
        test_summary_writter = tf.summary.FileWriter(test_log_path, graph=tf.get_default_graph())
        init = tf.global_variables_initializer()
        iter_num = 10000
        batch_size = 1024
        os.environ["CUDA_VISIBLE_DEVICES"] = '2'  # 选择cuda的设备
        gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.2)  # gpu显存使用
        with tf.Session(config=tf.ConfigProto(gpu_options=gpu_options)) as sess:
            sess.run(init)
            if not os.path.exists(os.path.dirname(model_path)):
                os.makedirs(os.path.dirname(model_path))
            else:
                try:
                    saver.restore(sess, model_path)
                except:
                    pass
            for i in range(iter_num):
                x, y = mnist.train.next_batch(batch_size)
                sess.run(update, feed_dict={X:x, Y:y, is_training:True})
                if i  % 100 == 0:
                    x_test, y_test = mnist.test.next_batch(batch_size)
                    print("train:", sess.run(accuray, feed_dict={X: x, Y: y, is_training:False}))
                    print("test:", sess.run(accuray, feed_dict={X: x_test, Y: y_test, is_training:False}))
                    saver.save(sess, model_path)
                    g, summary = sess.run([global_step, merged_summary_op], feed_dict={X: x, Y: y, is_training:False})
                    train_summary_writter.add_summary(summary, g)
                    train_summary_writter.flush()
                    g, summary = sess.run([global_step, merged_summary_op], feed_dict={X: x_test, Y: y_test, is_training:False})
                    test_summary_writter.add_summary(summary, g)
                    test_summary_writter.flush()
        train_summary_writter.close()
        test_summary_writter.close()

下面我们来进行计算:

train(model1, "model1/model", "model1_train_log", "model1_test_log")

train(model2, "model2/model", "model2_train_log", "model2_test_log")

结论

我们发现, 加了batch norm的似乎收敛的更快一些, 这个我们可以从对比上可以很清楚的看到, 所以这个bn是我们一个很好的技术, 前提是你选的参数比较适合.

以下是两个注意点:

The keys to use batch normalization in slim are:

Set proper decay rate for BN layer. Because a BN layer uses EMA (exponential moving average) to approximate the population mean/variance, it takes sometime to warm up, i.e. to get the EMA close to real population mean/variance. The default decay rate is 0.999, which is kind of high for our little cute MNIST dataset and needs ~1000 steps to get a good estimation. In my code, decay is set to 0.95, then it learns the population statistics very quickly. However, a large value of decay does have it own advantage: it gathers information from more mini-batches thus is more stable.

Use slim.learning.create_train_op to create train op instead of tf.train.GradientDescentOptimizer(0.1).minimize(loss) or something else!.

深度学习中batch normalization的更多相关文章

深度学习中 Batch Normalization
深度学习中 Batch Normalization为什么效果好?(知乎) https://www.zhihu.com/question/38102762
深度学习中 Batch Normalization为什么效果好
看mnist数据集上其他人的CNN模型时了解到了Batch Normalization 这种操作.效果还不错,至少对于训练速度提升了很多. batch normalization的做法是把数据转换为0 ...
zz详解深度学习中的Normalization，BN/LN/WN
详解深度学习中的Normalization,BN/LN/WN 讲得是相当之透彻清晰了深度神经网络模型训练之难众所周知,其中一个重要的现象就是 Internal Covariate Shift. Ba ...
深度学习中的Normalization模型
Batch Normalization(简称 BN)自从提出之后,因为效果特别好,很快被作为深度学习的标准工具应用在了各种场合.BN 大法虽然好,但是也存在一些局限和问题,诸如当 BatchSize ...
[优化]深度学习中的 Normalization 模型
来源:https://www.chainnews.com/articles/504060702149.htm 机器之心专栏作者:张俊林 Batch Normalization (简称 BN)自从提出 ...
深度学习之Batch Normalization
在机器学习领域中,有一个重要的假设:独立同分布假设,也就是假设训练数据和测试数据是满足相同分布的,否则在训练集上学习到的模型在测试集上的表现会比较差.而在深层神经网络的训练中,当中间神经层的前一层参数 ...
深度学习中优化【Normalization】
深度学习中优化操作: dropout l1, l2正则化 momentum normalization 1.为什么Normalization? 深度神经网络模型的训练为什么会很困难?其中一个重 ...
深度学习中的batch、epoch、iteration的含义
深度学习的优化算法,说白了就是梯度下降.每次的参数更新有两种方式. 第一种,遍历全部数据集算一次损失函数,然后算函数对各个参数的梯度,更新梯度.这种方法每更新一次参数都要把数据集里的所有样本都看一遍, ...
深度学习中 --- 解决过拟合问题（dropout, batchnormalization）
过拟合,在Tom M.Mitchell的<Machine Learning>中是如何定义的:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比 ...

随机推荐

新建maven项目，JRE System Library[J2SE-1.5]
上篇博文中搭建了maven多模块项目,发现全是JRE System Library[J2SE-1.5],如图. 怎么避免这种情况呢? windows-preferences-maven-user se ...
转-Windows路由表配置：双网卡路由分流
原文链接:http://www.cnblogs.com/lightnear/archive/2013/02/03/2890835.html 一.windows 路由表解释 route print -4 ...
Servlet--j2e中文乱码解决
我们在写项目的时候经常会传递一些中文参数,但是j2e默认使用ISO-8859-1来编码和解码,所以很容易出现中文乱码问题.这里我做一个统一的整理,其实这里的中文乱码问题和上一篇的路径问题都是j2e经常 ...
07_jquery入门第一天
视频来源:麦子学院讲师:魏畅然补充:JSON.stringify()函数 [https://www.cnblogs.com/damonlan/archive/2012/03/13/2394787. ...
redis数据类型-有序集合
有序集合类型在集合类型的基础上有序集合类型为集合中的每个元素都关联了一个分数,这使得我们不仅可以完成插入.删除和判断元素是否存在等集合类型支持的操作,还能够获得分数最高(或最低)的前N个元素.获得指 ...
小谈ConcurrentHashMap
面试的时候被面试官问了点相关知识,再次记录一些自己的总结一. 1.HashTable也可实现线程安全,但是它是用synchronized实现的,所以其他线程访问HashTable的同步方法时,可能会 ...
一步一步从原理跟我学邮件收取及发送 9.多行结果与socket的阻塞
前几篇的文章发表后,有网友留言说没有涉及到阻塞的问题吗?在 socket 的编程当中,这确实是个很重要的问题.结合目前我们文章的内容进度,我们来看看为什么说阻塞概念很重要. 接着上篇的内容,当我们发送 ...
VNC配置
简介 VNC (Virtual Network Console)是虚拟网络控制台的缩写.它是一款优秀的远程控制工具软件,由著名的 AT&T 的欧洲研究实验室开发的.VNC 是在基于 UNIX ...
2. getline()和get()
1.面向行输入:getline() ---其实还可以接受第三个参数. getline()函数读取整行,调用该方法使用cin.getline().该函数有两个参数, 第一个参数是是用来存储输入行的数组 ...
细数Python Flask微信公众号开发中遇到的那些坑
最近两三个月的时间,断断续续边学边做完成了一个微信公众号页面的开发工作.这是一个快递系统,主要功能有用户管理.寄收件地址管理.用户下单,订单管理,订单查询及一些宣传页面等.本文主要细数下开发过程中遇到 ...

深度学习中batch normalization

目录

Batch Normalization笔记

引包

构建模型:

构建训练函数

结论

深度学习中batch normalization的更多相关文章

随机推荐

热门专题