激活函数（relu，prelu，elu，+BN）对比on cifar10

可参考上一篇：

激活函数 ReLU、LReLU、PReLU、CReLU、ELU、SELU 的定义和区别

一．理论基础

1.1激活函数

1.2 elu论文（FAST AND ACCURATE DEEP NETWORK LEARNING BY

EXPONENTIAL LINEAR UNITS (ELUS)）

1.2.1 摘要

论文中提到，elu函数可以加速训练并且可以提高分类的准确率。它有以下特征：

1）elu由于其正值特性，可以像relu,lrelu,prelu一样缓解梯度消失的问题。

2）相比relu，elu存在负值，可以将激活单元的输出均值往0推近，达到

batchnormlization的效果且减少了计算量。（输出均值接近0可以减少偏移效应进而使梯

度接近于自然梯度。）

3）Lrelu和prelu虽然有负值存在，但是不能确保是一个噪声稳定的去激活状态。

4）Elu在负值时是一个指数函数，对于输入特征只定性不定量。

1.2.2.bias shift correction speeds up learning

为了减少不必要的偏移移位效应，做出如下改变：（i）输入单元的激活可以

以零为中心，或（ii）可以使用具有负值的激活函数。我们介绍一个新的

激活函数具有负值，同时保持正参数的特性，即elus。

1.2.4实验

作者把elu函数用于无监督学习中的autoencoder和有监督学习中的卷积神经网络；

elu与relu，lrelu，SReLU做对比实验；数据集选择mnist，cifar10，cifar100.

2ALL-CNN for cifar-10

2.1结构设计

ALL-CNN结构来自论文（STRIVING FOR SIMPLICITY:

THE ALL CONVOLUTIONAL NET）主要工作是把pool层用stride=2的卷积来代替，提出了一些全卷积网络架构，kernel=3时效果最好，最合适之类的，比较好懂，同时效果也不错，比原始的cnn效果好又没有用到一些比较大的网络结构如resnet等。

附上：

Lrelu实现：

def lrelu(x, leak=0.2, name="lrelu"):

return tf.maximum(x, leak * x)

Prelu实现：

def parametric_relu(_x):

alphas = tf.get_variable('alpha', _x.get_shape()[-1],

initializer=tf.constant_initializer(0.25),

dtype = tf.float32

)

pos = tf.nn.relu(_x)

neg = alphas * (_x - abs(_x)) * 0.5

print(alphas)

return pos + neg

BN实现：

def batch_norm(x, n_out,scope='bn'):

  """

  Batch normalization on convolutional maps.

  Args:

    x: Tensor, 4D BHWD input maps

    n_out: integer, depth of input maps

    phase_train: boolean tf.Variable, true indicates training phase

    scope: string, variable scope

  Return:

    normed: batch-normalized maps

  """

  with tf.variable_scope(scope):

    beta = tf.Variable(tf.constant(0.0, shape=[n_out]),

      name='beta', trainable=True)

    gamma = tf.Variable(tf.constant(1.0, shape=[n_out]),

      name='gamma', trainable=True)

    tf.add_to_collection('biases', beta)

    tf.add_to_collection('weights', gamma)

    batch_mean, batch_var = tf.nn.moments(x, [0,1,2], name='moments')

    ema = tf.train.ExponentialMovingAverage(decay=0.99)

    def mean_var_with_update():

      ema_apply_op = ema.apply([batch_mean, batch_var])

      with tf.control_dependencies([ema_apply_op]):

       return tf.identity(batch_mean), tf.identity(batch_var)

    #mean, var = control_flow_ops.cond(phase_train,

    # mean, var = control_flow_ops.cond(phase_train,

    #   mean_var_with_update,

    #   lambda: (ema.average(batch_mean), ema.average(batch_var)))

    mean, var = mean_var_with_update()

    normed = tf.nn.batch_normalization(x, mean, var,

      beta, gamma, 1e-3)

  return normed

在cifar10 上测试结果如下：

以loss所有结果如下：relu+bn>elu>prelu>elubn>relu

所有的测试准确率如下

relu+bn组合准确率最高，relu+bn>elu>prelu>elubn>relu

可见elu在激活函数里表现最好，但是它不必加BN，这样减少了BN的计算量。

3.ALL-CNN for cifar-100

cifar100数据集

CIFAR-100 python version,下载完之后解压，在cifar-100-python下会出现：meta,test和train

三个文件，他们都是python用cPickle封装的pickled对象

解压：tar -zxvf xxx.tar.gz

cifar-100-python/

cifar-100-python/file.txt~

cifar-100-python/train

cifar-100-python/test

cifar-100-python/meta

def unpickle(file):

import cPickle

fo = open(file, ‘rb’)

dict = cPickle.load(fo)

fo.close()

return dict

通过以上代码可以将其转换成一个dict对象，test和train的dict中包含以下元素：

data——一个nx3072的numpy数组,每一行都是(32,32,3)的RGB图像,n代表图像个数

coarse_labels——一个范围在0-19的包含n个元素的列表,对应图像的大类别

fine_labels——一个范围在0-99的包含n个元素的列表,对应图像的小类别

而meta的dict中只包含fine_label_names,第i个元素对应其真正的类别。

二进制版本（我用的）：

<1 x coarse label><1 x fine label><3072 x pixel>

…

<1 x coarse label><1 x fine label><3072 x pixel>

网络结构直接在cifar10的基础上输出100类即可，只对cifar100的精细标签100个进行分类任务，因此代码里取输入数据集第二个值做为标签。（tensorflow的cifar10代码）

label_bytes =2 # 2 for CIFAR-100

#取第二个标签100维

result.label = tf.cast(

tf.strided_slice(record_bytes, [1], [label_bytes]), tf.int32)

在all CNN 9层上，大约50k步，relu+bn组合测试的cifar100 test error为0.36

PS:

Activation Function Cheetsheet

来源：

https://blog.csdn.net/m0_37561765/article/details/78398098

https://towardsdatascience.com/activation-functions-neural-networks-1cbd9f8d91d6

激活函数（relu，prelu，elu，+BN）对比on cifar10的更多相关文章

激活函数ReLU、Leaky ReLU、PReLU和RReLU
“激活函数”能分成两类——“饱和激活函数”和“非饱和激活函数”. sigmoid和tanh是“饱和激活函数”,而ReLU及其变体则是“非饱和激活函数”.使用“非饱和激活函数”的优势在于两点: 1 ...
[转]激活函数ReLU、Leaky ReLU、PReLU和RReLU
“激活函数”能分成两类——“饱和激活函数”和“非饱和激活函数”. sigmoid和tanh是“饱和激活函数”,而ReLU及其变体则是“非饱和激活函数”.使用“非饱和激活函数”的优势在于两点: 1 ...
激活函数(ReLU, Swish, Maxout)
神经网络中使用激活函数来加入非线性因素,提高模型的表达能力. ReLU(Rectified Linear Unit,修正线性单元) 形式如下: \[ \begin{equation} f(x)= \b ...
【机器学习】激活函数(ReLU, Swish, Maxout)
https://blog.csdn.net/ChenVast/article/details/81382939 神经网络中使用激活函数来加入非线性因素,提高模型的表达能力. ReLU(Rectifie ...
ReLU 和sigmoid 函数对比
详细对比请查看:http://www.zhihu.com/question/29021768/answer/43517930 . 激活函数的作用: 是为了增加神经网络模型的非线性.否则你想想,没有激活 ...
ReLU 和sigmoid 函数对比以及droupout
参考知乎的讨论:https://www.zhihu.com/question/29021768 1.计算简单,反向传播时涉及除法,sigmod求导要比Relu复杂: 2.对于深层网络,sigmod反向 ...
caffe Python API 之激活函数ReLU
import sys import os sys.path.append("/projects/caffe-ssd/python") import caffe net = caff ...
Difference between ReLU、LReLU、PReLU、CReLU、ELU、SELU
激活函数 ReLU.LReLU.PReLU.CReLU.ELU.SELU 的定义和区别 ReLU tensorflow中:tf.nn.relu(features, name=None) LReLU ...
神经网络中的激活函数具体是什么？为什么ReLu要好过于tanh和sigmoid function?（转）
为什么引入激活函数? 如果不用激励函数(其实相当于激励函数是f(x) = x),在这种情况下你每一层输出都是上层输入的线性函数,很容易验证,无论你神经网络有多少层,输出都是输入的线性组合,与没有隐藏层 ...

随机推荐

(转)MySQL备份原理详解
MySQL备份原理详解原文:http://www.cnblogs.com/cchust/p/5452557.html 备份是数据安全的最后一道防线,对于任何数据丢失的场景,备份虽然不一定能恢复百分之 ...
C++的开源跨平台日志库glog学习研究(二)--宏的使用
上一篇从整个工程上简单分析了glog,请看C++的开源跨平台日志库glog学习研究(一),这一篇对glog的实现代码入手,比如在其源码中以宏的使用最为广泛,接下来就先对各种宏的使用做一简单分析. 1. ...
Java之集合(二十七)其它集合
转载请注明源出处:http://www.cnblogs.com/lighten/p/7551368.html 1.前言本章介绍剩余的3个集合类:ConcurrentSkipListSet.CopyO ...
搭建互联网架构学习--005--框架初步拆分ssm单一框架
经过前边的准备步骤,服务器基本搭建完毕,接下来就开始一步步搭建框架了. 拆分单一结构:拆分的目的是为下一步引入dubbo做准备的. 把下边这个单一maven框架进行拆分这个就是一个简单的maven项 ...
ASP.NET5使用FaceBook登录
原版教程使用VS2015创建Web应用: 此教程使用的是FaceBook账号登录,需要添加相关的类,打开Nuget: 搜索Microsoft.AspNet.Authentication.Facebo ...
Java虚拟机（四）：JVM类加载机制
1.什么是类的加载类的加载指的是将类的.class文件中的二进制数据读入到内存中,将其放在运行时数据区的方法区内,然后在堆区创建一个java.lang.Class对象,用来封装类在方法区内的数据结构 ...
redis 安装与错误解决办法
redis 安装与安装中遇到的错误 redis 安装 wget http://download.redis.io/releases/redis-4.0.11.tar.gz .tar.gz cd red ...
多表连接的三种方式详解 HASH JOIN MERGE JOIN NESTED LOOP
在多表联合查询的时候,如果我们查看它的执行计划,就会发现里面有多表之间的连接方式. 之前打算在sqlplus中用执行计划的,但是格式看起来有点乱,就用Toad 做了3个截图. 从3张图里我们看到了几点 ...
thinkphp 页面静态化
页面静态化(代码在最后) 静态页面是网页的代码都在页面中,不需要执行asp,php,jsp,.net等程序生成客户端网页代码的网页,静态页面网址中一般不含“?”.“=”.“&”等特殊符号. ...
jar命令简单使用
以windows10操作系统,JDK1.8为例: 打包主要是针对class文件以及依赖的jar包. 1.编写MANIFEST.MF文件(详细可以上网查一下MANIFEST.MF文件规则.) 此文件主要 ...

激活函数（relu，prelu，elu，+BN）对比on cifar10

激活函数（relu，prelu，elu，+BN）对比on cifar10的更多相关文章

随机推荐

热门专题