本文链接：https://blog.csdn.net/m0_38106113/article/details/81542863

指数加权平均算法的原理

TensorFlow中的滑动平均模型使用的是滑动平均（Moving Average）算法，又称为指数加权移动平均算法（exponenentially weighted average），这也是ExponentialMovingAverage()函数的名称由来。
先来看一个简单的例子，这个例子来自吴恩达老师的DeepLearning课程，个人强烈推荐初学者都看一下。
开始例子。首先这是一年365天的温度散点图，以天数为横坐标，温度为纵坐标，你可以看见各个小点分布在图上，有一定的曲线趋势，但是并不明显

接着，如果我们要看出这个温度的变化趋势，很明显需要做一点处理，也即是我们的主题，用滑动平均算法处理。
首先给定一个值v0，然后我们定义每一天的温度是a1，a2，a3·····
接着，我们计算出v1，v2，v3····来代替每一天的温度，也就是上面的a1，a2，a3
计算方法是：v1 = v0 * 0.9 + a1 （1-0.9），v2= v1 0.9 + a2 （1-0.9），v3= v2 0.9 + a3 （1-0.9）···，也就是说，每一天的温度改变为前一天的v值 0.9 + 当天的温度 * 0.1，vt = v(t-1) * 0.9 + at * 0.1，把所有的v计算完之后画图，红线就是v的曲线：

v值就是指数加权平均数，整个过程就是指数加权平均算法，它很好的把一年的温度曲线给拟合了出来。把0.9抽象为β，总结为vt = v(t-1) * β + at * (1-β)。

β这个值的意义是什么？实际上vt ≈ 1/(1 - β) 天的平均温度，例如：假设β等于0.9，1/(1 - β) 就等于10，也就是vt等于前十天的平均温度，这个说可能不太看得出来；假设把β值调大道接近1，例如，将β等于0.98，1/(1-β)=50，按照刚刚的说法也就是前50天的平均温度，然后求出v值画出曲线，如图所示：

绿线就是β等于0.98时候的曲线，可以明显看到绿线比红线的变化更迟，红线达到某一温度，绿线要过一阵子才能达到相同温度。因为绿线是前50天的平均温度，变化就会更加缓慢，而红线是最近十天的平均温度，只要最近十天的温度都是上升，红线很快就能跟着变化。所以直观的理解就是，vt是前1/(1-β)天的平均温度。
再看看另一个极端情况：β等于0.5，意味着vt≈最近两天的平均温度，曲线如下黄线：

和原本的温度很相似，但曲线的波动幅度也相当大！

然后说一下这个滑动平均模型和深度学习有什么关系：通常来说，我们的数据也会像上面的温度一样，具有不同的值，如果使用滑动平均模型，就可以使得整体数据变得更加平滑——这意味着数据的噪音会更少，而且不会出现异常值。但是同时β太大也会使得数据的曲线右移，和数据不拟合。需要不断尝试出一个β值，既可以拟合数据集，又可以减少噪音。
滑动平均模型在深度学习中还有另一个优点：它只占用极少的内存
当你在模型中计算最近十天（有些情况下远大于十天）的平均值的时候，你需要在内存中加载这十天的数据然后进行计算，但是指数加权平均值约等于最近十天的平均值，而且根据vt = v(t-1) * β + at * (1-β)，你只需要提供at这一天的数据，再加上v(t-1)的值和β值，相比起十天的数据这是相当小的数据量，同时占用更少的内存。

偏差修正

指数加权平均值通常都需要偏差修正，TensorFlow中提供的ExponentialMovingAverage()函数也带有偏差修正。

首先看一下为什么会出现偏差，再来说怎么修正。当β等于0.98的时候，还是用回上面的温度例子，曲线实际上不是像绿线一样，而是像紫线：

你可以注意到在紫线刚刚开始的时候，曲线的值相当的低，这是因为在一开始的时候并没有50天（1/(1-β)为50）的数据，而是只有寥寥几天的数据，相当于少加了几十天的数据，所以vt的值很小，这和实际情况的差距是很大的，也就是出现的偏差。
而在TensorFlow中的ExponentialMovingAverage()采取的偏差修正方法是：使用num_updates来动态设置β的大小

在数据迭代的前期，数据量比较少的时候，(1+num_updates)/(10+num_updates)的值比较小，使用这个值作为β来进行vt的计算，所以在迭代前期就会像上面的红线一样，和原数据更加接近。举个例子，当天数是第五天，β为0.98，那么(1+num_updates)/(10+num_updates) = 6/15 = 0.4，相当于最近1.6天的平均温度，而不是β=0.98时候的50天，这样子就做到了偏差修正。

滑动平均模型的代码实现

看到这里你应该大概了解了滑动平均模型和偏差修正到底是怎么回事了，接下来把这个想法对应到TensorFlow的代码中。

首先明确一点，TensorFlow中的ExponentialMovingAverage()是针对权重weight和偏差bias的，而不是针对训练集的。如果你现在训练集中实现这个效果，需要自己设计代码。
为什么要对w和b使用滑动平均模型呢？因为在神经网络中，
更新的参数时候不能太大也不能太小，更新的参数跟你之前的参数有联系，不能发生突变。一旦训练的时候遇到个“疯狂”的参数，有了滑动平均模型，疯狂的参数就会被抑制下来，回到正常的队伍里。这种对于突变参数的抑制作用，用专业术语讲叫鲁棒性，鲁棒性就是对突变的抵抗能力，鲁棒性越好，这个模型对恶性参数的提抗能力就越强。
在TensorFlow中，ExponentialMovingAverage()可以传入两个参数：衰减率（decay）和数据的迭代次数（step），这里的decay和step分别对应我们的β和num_updates，所以在实现滑动平均模型的时候，步骤如下：
1、定义训练轮数step
2、然后定义滑动平均的类
3、给这个类指定需要用到滑动平均模型的变量（w和b）
4、执行操作，把变量变为指数加权平均值

    # 1、定义训练的轮数，需要用trainable=False参数指定不训练这个变量，

    # 避免这个变量被计算滑动平均值

    global_step = tf.Variable(0, trainable=False)

    # 2、给定滑动衰减率和训练轮数，初始化滑动平均类

    # 定训练轮数的变量可以加快训练前期的迭代速度

    variable_averages = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY,

                                                          global_step)

    # 3、用tf.trainable_variable()获取所有可以训练的变量列表，也就是所有的w和b

    # 全部指定为使用滑动平均模型

    variables_averages_op = variable_averages.apply(tf.trainable_variables())

    # 反向传播更新参数之后，再更新每一个参数的滑动平均值，用下面的代码可以一次完成这两个操作

    with tf.control_dependencies([train_step, variables_averages_op]):

        train_op = tf.no_op(name="train")

设置完使用滑动平均模型之后，只需要在每次使用反向传播的时候改为使用run.(train_op)就可以正常执行了。

(转)深入解析TensorFlow中滑动平均模型与代码实现的更多相关文章

TensorFlow中的卷积函数
前言最近尝试看TensorFlow中Slim模块的代码,看的比较郁闷,所以试着写点小的代码,动手验证相关的操作,以增加直观性. 卷积函数 slim模块的conv2d函数,是二维卷积接口,顺着源代码可 ...
tensorflow笔记：多层LSTM代码分析
tensorflow笔记:多层LSTM代码分析标签(空格分隔): tensorflow笔记 tensorflow笔记系列: (一) tensorflow笔记:流程,概念和简单代码注释 (二) ten ...
tensorflow：实战Google深度学习框架第四章02神经网络优化（学习率，避免过拟合，滑动平均模型）
1.学习率的设置既不能太小,又不能太大,解决方法:使用指数衰减法例如: 假设我们要最小化函数 y=x2y=x2, 选择初始点 x0=5x0=5 1. 学习率为1的时候,x在5和-5之间震荡. im ...
Tensorflow 中的优化器解析
Tensorflow:1.6.0 优化器(reference:https://blog.csdn.net/weixin_40170902/article/details/80092628) I: t ...
day-18 滑动平均模型测试样例
为了使训练模型在测试数据上有更好的效果,可以引入一种新的方法:滑动平均模型.通过维护一个影子变量,来代替最终训练参数,进行训练模型的验证. 在tensorflow中提供了ExponentialMovi ...
转：二十一、详细解析Java中抽象类和接口的区别
转:二十一.详细解析Java中抽象类和接口的区别 http://blog.csdn.net/liujun13579/article/details/7737670 在Java语言中, abstract ...
CNN中的卷积核及TensorFlow中卷积的各种实现
声明: 1. 我和每一个应该看这篇博文的人一样,都是初学者,都是小菜鸟,我发布博文只是希望加深学习印象并与大家讨论. 2. 我不确定的地方用了"应该"二字首先,通俗说一下,CNN ...
TensorFlow中的通信机制——Rendezvous（二）gRPC传输
背景 [作者:DeepLearningStack,阿里巴巴算法工程师,开源TensorFlow Contributor] 本篇是TensorFlow通信机制系列的第二篇文章,主要梳理使用gRPC网络传 ...
TensorFlow中的通信机制——Rendezvous（一）本地传输
背景 [作者:DeepLearningStack,阿里巴巴算法工程师,开源TensorFlow Contributor] 在TensorFlow源码中我们经常能看到一个奇怪的词——Rendezvous ...

随机推荐

Python 浮点数的冷知识
本周的PyCoder's Weekly 上分享了一篇小文章,它里面提到的冷知识很有意思,我稍作补充,分享给大家. 它提到的部分问题,读者们可以先思考下: 若两个元组相等,即 a==b 且 a is b ...
约数之和（POJ1845 Sumdiv）
最近应老延的要求再刷<算法进阶指南>(不得不说这本书不错)...这道题花费了较长时间~(当然也因为我太弱了)所以就写个比较易懂的题解啦~ 原题链接:POJ1845 翻译版题目(其实是AcW ...
服务器端Mysql常用操作
原文内容来自于LZ(楼主)的印象笔记,如出现排版异常或图片丢失等问题,可查看当前链接:https://app.yinxiang.com/shard/s17/nl/19391737/f7463513-5 ...
docker 常用命令以及常见问题
常见命令 windos 在搜索框输入 windows powershell,打开.然后输入以下命令#查看镜像列表 docker images ls #删除单个镜像 docker rmi image- ...
CVE-2018-12613-phpmyadmin4.8.1远程文件包含漏洞复现
CVE-2018-12613-phpmyadmin4.8.1远程文件包含漏洞复现参考文章1 参考文章2 By:Mirror王宇阳漏洞原理攻击者利用发现在服务器上包含(查看和潜在执行)文件的漏洞. ...
web 自动化遇到 shadowDOM 节点你会操作吗？
本文转载自: http://www.lemfix.com/topics/971 近期有同学在做web自动化的时候,发现页面上有些元素,在selenium中无法通过xpath来定位,各种原因找了半天,都 ...
php有必要用swoole吗
在 Swoole 官网的自我介绍是“面向生产环境的 PHP 异步网络通信引擎”,首先 Swoole 它是一个网络应用的开发工具,它支持 Http.TCP.UDP.WebSocket. Swoole 和 ...
【30天自制操作系统】day02：寄存器和Makefile
基本寄存器 AX(accumulator):累加寄存器 CX(counter):计数寄存器 DX(data):数据寄存器 BX(base):基址寄存器 SP(stack pointer):栈指针寄存器 ...
Ansible-playbook之循环判断
1.循环 (loop) # 使用循环创建硬连接:x连接到y:z连接到k: - hosts: web - name: Create two hard links file: src: "{{ ...
松软科技web课堂:JavaScript Math 对象
JavaScript Math 对象允许您对数字执行数学任务. 实例 Math.PI; // 返回 3.141592653589793 Math.round() Math.round(x) 的返回值是 ...

(转)深入解析TensorFlow中滑动平均模型与代码实现

指数加权平均算法的原理

偏差修正

滑动平均模型的代码实现

(转)深入解析TensorFlow中滑动平均模型与代码实现的更多相关文章

随机推荐

热门专题