EMA

源
设置
结果

源

Exponential moving average (EMA) 是一个非常有用的trick, 起到加速训练的作用. 近来发现, 该技巧还可以用于提高网络鲁棒性(约1% ~ 2%). EMA的流程很简单, $f(\cdot;\theta)$是我们用于训练的网络, 则在每次迭代结束后进行:

\[\theta' = \alpha \cdot \theta' + (1 - \alpha) \cdot \theta,
\]

其中$\theta'$是$f'(\cdot; \theta')$网络的参数, $f', f$的网络初始化是一致的, 另外$f'$的网络参数的更新仅仅通过上式.

一般情况下, 对抗训练用$f(\cdot; \theta)$来生成对抗样本, 即

\[x_{adv} := \arg \max_{\|x'-x\|\le \epsilon} \mathcal{L}(f(x'),y),
\]

来获得, 而我想的能不能

\[x_{adv} := \arg \max_{\|x'-x\|\le \epsilon} \mathcal{L}(f'(x'),y).
\]

背后的直觉是, $f'$相较于$f$更为平稳, 则由其产生的对抗样本的分布更加稳定, 则$f$拟合起来会不会更加容易?

我在一个8层的网络上进行测试, 结果不如人意:

设置

model	cifar
dataset	CIFAR-10
attack	PGD
epsilon	8/255
stepsize	2/255
steps	10
loss	cross entropy
optimizer	sgd
momentum	0.9
beta1	0.9
beta2	0.999
weight_decay	2e-4
leaning_rate	0.1
learning_policy	AT
epochs	200
batch_size	128
transform	default
seed	1
alpha	0.999

结果

	Accuracy	Robustness
EMA*
EMA
EMA + GroupNorm

上图中, EMA是原本的逻辑, 可见其的确能加速训练(Shadow表示$f'$), 虽然最后的结果是降了点, 这主要是参数没调好, 毕竟对抗训练很容易过拟合. 但是我们的直接却完全不起作用, 这让我非常困惑, 因为, 我料想的最差的结果, 也应当是鲁棒性不怎样, 不能精度和鲁棒性都很差, 因为虽然是通过$f'$生成的对抗样本, 这些对抗样本依旧是满足$|x_{adv} - x|_{\infty} \le 8 /255 $ 的，所以应该是没问题的.

于是我又尝试让$\alpha$由$0$慢慢增加到$0.999$, 但是结果依然不容乐观. 我料想是batch normalization的问题, 于是换了group normlization:

虽然结果似乎表明我们的直觉完全是错误的, 但是还是体会到了 normalization 的重要性, BN很难应对不同分布.

EMA的更多相关文章

股票中的数学：EMA的推导01
说明:本人并不炒股,原因很简单:没钱.当然了,作为一名IT工作者,因为工作需要和个人兴趣,就有了本系列文章.阅读本系列文章不需要任何高深的知识,哪怕是一个像我这样从未真正炒过股的人也没关系.但本文还是 ...
EMA计算的C#实现（c# Exponential Moving Average (EMA) indicator ）
原来国外有个源码(TechnicalAnalysisEngine src 1.25)内部对EMA的计算是: var copyInputValues = input.ToList(); for (int ...
新修改了EMA的计算方法，合并线性回归率的计算。和通达信的结果一模一样
using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Threa ...
WeQuant交易策略—EMA指标
策略名称:EMA指标策略关键词:指数移动平均.双均线.动态止损.方法:1)用快慢两条指数移动平均线的交叉作为买入卖出信号:2)快线自下而上穿过慢线,买入:自上而下穿过慢线,卖出:3)持仓期间计算净值的 ...
新概念英语（1-9）How is Ema?
A:Hello Helen. B:Hi Steven. A:How are you today? B:I'm very well, thank you. And you? A:I'm fine tha ...
tensorflow(3):神经网络优化(ema,regularization)
1.指数滑动平均 (ema) 描述滑动平均: with tf.control_dependencies([train_step,ema_op]) 将计算滑动平均与训练过程绑在一起运行 train_o ...
多种移动平均计算总结（MA,EMA,SMA,DMA,TMA,WMA）
多种移动平均计算总结股票期货里面经常会遇到这些公式,通达信,同花顺,文华,基本都有.作为一个程序员觉得网上比较的思路不清晰,在此做个总结,一目了然. 一.函数简介 MA(x,n)-移动平均,是最简单 ...
【优化技巧】指数移动平均EMA的原理
前言在深度学习中,经常会使用EMA(exponential moving average)方法对模型的参数做平滑或者平均,以求提高测试指标,增加模型鲁棒性. 参考 1. [优化技巧]指数移动平均(E ...
EMA指数平滑移动平均
英文参考:http://www.incrediblecharts.com/indicators/exponential_moving_average.php Exponential moving av ...
EMA algorithm: https://blog.csdn.net/m0_38106113/article/details/81542863
EMA algorithm: https://blog.csdn.net/m0_38106113/article/details/81542863

随机推荐

A Child's History of England.51
CHAPTER 14 ENGLAND UNDER KING JOHN, CALLED LACKLAND At two-and-thirty years of age, John became King ...
大数据学习day13------第三阶段----scala01-----函数式编程。scala以及IDEA的安装，变量的定义，条件表达式，for循环（守卫模式，推导式，可变参数以及三种遍历方式），方法定义，数组以及集合（可变和非可变），数组中常用的方法
具体见第三阶段scala-day01中的文档(scala编程基础---基础语法) 1. 函数式编程(https://www.cnblogs.com/wchukai/p/5651185.html): ...
js中!!的妙用
0.-0.null."".false.undefined 或者 NaN转化为false,其他为true
【原创】Altium生成Gerber时跳出The Film is too small for this PCB的解决办法
在用altium Designer画板子的时候,要生成gerber文件的时候,会出错,出现这样的提示框:"The Film is too small for this PCB" 原 ...
如何从 100 亿 URL 中找出相同的 URL？
题目描述给定 a.b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G.请找出 a.b 两个文件共同的 URL. 解答思路每个 URL 占 64B,那么 50 亿 ...
java设计模式—Decorator装饰者模式
一.装饰者模式 1.定义及作用该模式以对客户端透明的方式扩展对象的功能. 2.涉及角色抽象构件角色:定义一个抽象接口,来规范准备附加功能的类. 具体构件角色:将要被附加功能的类,实现抽象 ...
Linux基础命令---ab测试apache性能
ab ab指令是apache的性能测试工具,它可以测试当前apache服务器的运行性能,显示每秒中可以处理多少个http请求. 此命令的适用范围:RedHat.RHEL.Ubuntu.CentOS.F ...
Ruby Gems更换淘宝源方法
官方的 Rubygems 源由于有些资源放在 Amazon S3 上面,所以有时会抽风,在 Linux 下我用 proxychains gem install xxx 实现了指定程序实行 Shadow ...
'this' pointer in C++
The 'this' pointer is passed as a hidden argument to all nonstatic member function calls and is avai ...
JSP页面的基本结构
一:一个JSP页面由以下基本元素组成. (1)HTML标签 (2)CSS (3)变量和方法 (4)Java代码段 (5)JSP动作和指令 (6)其他脚本元素(如Javascript) 二:JSP的基本 ...

EMA

源

设置

结果

EMA的更多相关文章

随机推荐

热门专题