原文地址：

https://blog.csdn.net/weixin_40759186/article/details/87547795

---------------------------------------------------------------------------------------------------------------

用pytorch做dropout和BN时需要注意的地方

pytorch做dropout:

就是train的时候使用dropout,训练的时候不使用dropout,
pytorch里面是通过net.eval()固定整个网络参数，包括不会更新一些前向的参数，没有dropout，BN参数固定，理论上对所有的validation set都要使用net.eval()
net.train()表示会纳入梯度的计算。

net_dropped = torch.nn.Sequential(

    torch.nn.Linear(1, N_HIDDEN),

    torch.nn.Dropout(0.5),  # drop 50% of the neuron

    torch.nn.ReLU(),

    torch.nn.Linear(N_HIDDEN, N_HIDDEN),

    torch.nn.Dropout(0.5),  # drop 50% of the neuron

    torch.nn.ReLU(),

    torch.nn.Linear(N_HIDDEN, 1),

)



for t in range(500):

    pred_drop = net_dropped(x)

    loss_drop = loss_func(pred_drop, y)

    optimizer_drop.zero_grad()

    loss_drop.backward()

    optimizer_drop.step()

    if t % 10 == 0:

        # change to eval mode in order to fix drop out effect

        net_dropped.eval()  # parameters for dropout differ from train mode

        test_pred_drop = net_dropped(test_x)

        # change back to train mode

        net_dropped.train()

pytorch做Batch Normalization:

net.eval()固定整个网络参数，固定BN的参数，moving_mean 和moving_var，不懂这个看下图:

            if self.do_bn:

                bn = nn.BatchNorm1d(10, momentum=0.5)

                setattr(self, 'bn%i' % i, bn)   # IMPORTANT set layer to the Module

                self.bns.append(bn)

    for epoch in range(EPOCH):

        print('Epoch: ', epoch)

        for net, l in zip(nets, losses):

            net.eval()              # set eval mode to fix moving_mean and moving_var

            pred, layer_input, pre_act = net(test_x)

            net.train()             # free moving_mean and moving_var

        plot_histogram(*layer_inputs, *pre_acts)

moving_mean 和 moving_var

用tensorflow做dropout和BN时需要注意的地方

dropout和BN都有一个training的参数表明到底是train还是test, 表明test那dropout就是不dropout，BN就是固定住了BN的参数；

tf_is_training = tf.placeholder(tf.bool, None)  # to control dropout when training and testing

# dropout net

d1 = tf.layers.dense(tf_x, N_HIDDEN, tf.nn.relu)

d1 = tf.layers.dropout(d1, rate=0.5, training=tf_is_training)   # drop out 50% of inputs


d2 = tf.layers.dense(d1, N_HIDDEN, tf.nn.relu)

d2 = tf.layers.dropout(d2, rate=0.5, training=tf_is_training)   # drop out 50% of inputs


d_out = tf.layers.dense(d2, 1)

for t in range(500):

    sess.run([o_train, d_train], {tf_x: x, tf_y: y, tf_is_training: True})  # train, set is_training=True

    if t % 10 == 0:

        # plotting

        plt.cla()

        o_loss_, d_loss_, o_out_, d_out_ = sess.run(

            [o_loss, d_loss, o_out, d_out], {tf_x: test_x, tf_y: test_y, tf_is_training: False} # test, set is_training=False

        )

    def add_layer(self, x, out_size, ac=None):

        x = tf.layers.dense(x, out_size, kernel_initializer=self.w_init, bias_initializer=B_INIT)

        self.pre_activation.append(x)

        # the momentum plays important rule. the default 0.99 is too high in this case!

        if self.is_bn: x = tf.layers.batch_normalization(x, momentum=0.4, training=tf_is_train)    # when have BN

        out = x if ac is None else ac(x)

        return out

当BN的training的参数为train时，只是表示BN的参数是可变化的，并不是代表BN会自己更新moving_mean 和moving_var，因为这个操作是前向更新的op,在做train之前必须确保moving_mean 和moving_var更新了，更新moving_mean 和moving_var的操作在tf.GraphKeys.UPDATE_OPS

        # !! IMPORTANT !! the moving_mean and moving_variance need to be updated,

        # pass the update_ops with control_dependencies to the train_op

        update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)

        with tf.control_dependencies(update_ops):

            self.train = tf.train.AdamOptimizer(LR).minimize(self.loss)

【转载】深度学习总结：用pytorch做dropout和Batch Normalization时需要注意的地方，用tensorflow做dropout和BN时需要注意的地方,的更多相关文章

深度学习面试题21：批量归一化(Batch Normalization,BN)
目录 BN的由来 BN的作用 BN的操作阶段 BN的操作流程 BN可以防止梯度消失吗为什么归一化后还要放缩和平移 BN在GoogLeNet中的应用参考资料 BN的由来 BN是由Google于201 ...
Hinton“深度学习之父”和“神经网络先驱”，新论文Capsule将推翻自己积累了30年的学术成果时
Hinton“深度学习之父”和“神经网络先驱”,新论文Capsule将推翻自己积累了30年的学术成果时在论文中,Capsule被Hinton大神定义为这样一组神经元:其活动向量所表示的是特定实体类型 ...
深度学习基础系列（九）| Dropout VS Batch Normalization? 是时候放弃Dropout了
Dropout是过去几年非常流行的正则化技术,可有效防止过拟合的发生.但从深度学习的发展趋势看,Batch Normalizaton(简称BN)正在逐步取代Dropout技术,特别是在卷积层.本文将首 ...
windows10环境下安装深度学习环境anaconda+pytorch+CUDA+cuDDN
步骤零:安装anaconda.opencv.pytorch(这些不详细说明).复制运行代码,如果没有报错,说明已经可以了.不过大概率不行,我的会报错提示AssertionError: Torch no ...
常用深度学习框架(keras,pytorch.cntk,theano)conda 安装--未整理
版本查询 cpu tensorflow conda env list source activate tensorflow python import tensorflow as tf 和 tf.__ ...
深度学习之入门Pytorch（1）------基础
目录: Pytorch数据类型:Tensor与Storage 创建张量 tensor与numpy数组之间的转换索引.连接.切片等 Tensor操作[add,数学运算,转置等] GPU加速自动求导: ...
【深度学习】基于Pytorch的ResNet实现
目录 1. ResNet理论 2. pytorch实现 2.1 基础卷积 2.2 模块 2.3 使用ResNet模块进行迁移学习 1. ResNet理论论文:https://arxiv.org/pd ...
动手学深度学习11- 多层感知机pytorch简洁实现
多层感知机的简洁实现定义模型读取数据并训练数据损失函数定义优化算法小结多层感知机的简洁实现 import torch from torch import nn from torch.nn ...
动手学深度学习8-softmax分类pytorch简洁实现
定义和初始化模型 softamx和交叉熵损失函数定义优化算法训练模型 import torch from torch import nn from torch.nn import init imp ...

随机推荐

Markdown 绘制 UML 图 -- PlantUML + Gravizo(转)
原文地址:Markdown 绘制 UML 图 -- PlantUML + Gravizo
summary_22rd Nov 2018
一. 列表:记录同种属性的多个值定义:在[]中用逗号分隔开多个任意的值类型转换:L=list( ) 括号中的内容必须是可迭代类型,包括字符串,列表,字典等常用操作和内置方法: 1.按照索引位置 ...
js 正则常用函数会正则得永生
正则表达式作为一种匹配处理字符串的利器在很多语言中都得到了广泛实现和应用,web开发本质上是处理字符串(服务端接受请求处理后拼接字符串作为响应,这在早期的CGI编程中最明显,然后客户端解析字符串进行渲 ...
Generative Model 与 Discriminative Model
[摘要] - 生成模型(Generative Model) :无穷样本==>概率密度模型 = 产生模型==>预测 - 判别模型(Discriminative Model): ...
java局部变量，成员变量在堆和栈中的存储
对于局部变量,如果是基本类型,会把值直接存储在栈:如果是引用类型,比如String s = new String("william");会把其对象存储在堆,而把这个对象的引用(指针 ...
JavaScript -基础- 函数与对象（三）Date对象
一.Date对象 1.创建方法 var date_obj=new Date(); alert(date_obj.toLocaleString()) var date_obj=new Date(&quo ...
MATLAB 图片折腾4
重新安排矩阵的x,y,z , 在二维中就相当于把x,y 对换,在三维中相当于可以把三个坐标的位置互换. 比如A = A(:,:,1)=repmat(1,3,3);A(:,:,2)=repmat(2,3 ...
python nltk 安装及配置说明
本教程采用pip安装方式,前期需要在本机安装setuptools 及pip 网上铺天盖地的说了很多关于nltk的说明,特别是后期nltk_data 手动下载操作,多数都不好使,这里整理用pip安装n ...
四：（之四）基于已有镜像构建自己的Docker镜像
4构建自己的Docker镜像 4.1常用命令: 等同于docker commit 将一个被改变的容器创建成一个新的image 等同于docker build 通过Dockerfile创建一个image ...
Python Select模型（程序流程）（转）
缘由之前写socket的CS模型代码,都是利用最原始的多线程方式.服务端是主线程,接到客户端的连接请求就从线程池中获取一个线程去处理整个socket连接的所有操作,虽然在连接数较短的情况下没有什么影 ...

【转载】 深度学习总结：用pytorch做dropout和Batch Normalization时需要注意的地方，用tensorflow做dropout和BN时需要注意的地方,