AlexNet总结

https://blog.csdn.net/Rasin_Wu/article/details/80017920

https://blog.csdn.net/chaipp0607/article/details/72847422

AlexNet

AlexNet在2012年的ImageNet图像分类大赛中夺得第一名，将top-5错误率瞬间提升了百分之十以上。之后，CNN重回历史舞台。首先看一下它的网络结构：

这是论文中的给出的结构图，看起来很复杂，我们简化一下。这是吴恩达深度学习课程中给出的讲义(注意这里输入的是的 ${227* 227 * 3}$ 格式,与论文中有所不同，但是对网络结构没有影响)。

AlexNet的网络结构

Conv_1: 卷积层，输入: ${227 *227 *3}$ ,使用 ${96}$ 个 ${11 * 11 * 3}$ 核卷积，步长为 ${4}$ ，卷积之后长宽为 ${\lfloor\frac{227-11}{4}\rfloor+1 = 55}$ ,所以输出格式为 ${55 * 55 * 96}$
Max-pooling:输入为 ${ 55 * 55 * 96}$ ,pool: ${3 * 3 }$ ,步长为:2,所以pool之后长宽为: ${\lfloor\frac{55 - 3}{2}\rfloor + 1 = 27}$ ,输出为: ${27 * 27 * 96}$
Conv_2:卷积层，输入: ${27 * 27 * 96}$ ,使用 ${256}$ 个 ${5 * 5 * 96}$ ,步长为 ${1}$ ,padding为same. Padding常用的有两种same,valid:
- SAME padding:
  
  ${outheight = \lceil\frac{float(inheight)}{float(strides[1])}\rceil}$
  
  ${outwidth =\lceil\frac{float(in_width)}{float(strides[2])}\rceil}$
- VALID padding:
  
  ${outheight = \lceil\frac{float(inheight - filterheight)}{ float(strides[1])}\rceil + 1}$ ${outwidth = \lceil\frac{float(inwidth - filterwidth )}{float(strides[2])}\rceil + 1}$
所以此时Padding为左右两边均是 ${2}$ 。输出结果: ${27 * 27 *256}$ .
Max-pooling:输入为: ${27 * 27 *256}$ ,pool为 ${3 * 3 }$ ,步长为 ${2}$ ,长度为: ${\lfloor\frac{27 - 3}{2}\rfloor + 1 = 13}$ ,输出结果为: ${13 * 13 * 256}$
Conv_3,Conv_4,Conv_5:输入输出均为 ${13 * 13 * 256}$ ,步长为 ${1}$ ,核为 ${3 * 3 * 256}$ ,Padding为Same。
Max-pooling:输入 ${13 * 13 * 256}$ ，pool: ${3 * 3}$ ,步长为 ${2}$ 输出结果为 ${6 * 6 * 256}$ ,也就是 ${9216}$ 个特征变量。
FC:全连接层有两个隐藏层，从 ${9216 \Rightarrow 4096 \Rightarrow 4096 \Rightarrow_{softmax} 1000}$

AlexNet高性能的解释

非线性激活函数：ReLU
防止过拟合的方法：Dropout，Data augmentation
大数据训练：百万级ImageNet图像数据
其他：GPU实现，LRN归一化层的使用

ReLU

优点:

ReLU本质上是分段线性模型，前向计算非常简单，无需指数之类操作；

ReLU的偏导也很简单，反向传播梯度，无需指数或者除法之类操作；

ReLU不容易发生梯度发散问题，Tanh和Logistic激活函数在两端的时候导数容易趋近于零，多级连乘后梯度更加约等于0；

ReLU关闭了右边，从而会使得很多的隐层输出为0，即网络变得稀疏，起到了类似L1的正则化作用，可以在一定程度上缓解过拟合。

缺点:

左边全部关了很容易导致某些隐藏节点永无翻身之日，所以后来又出现pReLU、random ReLU等改进，而且ReLU会很容易改变数据的分布，因此ReLU后加Batch Normalization也是常用的改进的方法。

Data Augmentation

从原始图像（256,256）中，随机的crop出一些图像（224,224）。【平移变换，crop】

水平翻转图像。【反射变换，flip】

给图像增加一些随机的光照。【光照、彩色变换，color jittering】

AlexNet 训练的时候，在data augmentation上的处理：

随机crop。训练时候，对于256＊256的图片进行随机crop到224＊224，然后允许水平翻转，那么相当与将样本倍增到 ${((256-224)^2)*2=2048}$ 。

测试时候，对左上、右上、左下、右下、中间做了5次crop，然后翻转，共10个crop，之后对结果求平均。作者说，不做随机crop，大网络基本都过拟合(under substantial overfitting)。

对RGB空间做PCA，然后对主成分做一个 ${(0, 0.1)}$ 的高斯扰动。结果让错误率又下降了1%。

Dropout

结合多个训练模型可以减少测试误差，但是在神经网络中，训练每个模型都需要大量的时间，代价昂贵。Dropout通过在隐藏层中以rate概率随机将部分神经元输出设置为0，这些神经元既不参于前向传播，也不参与反向传播。所以每次提出一个输入，该神经网络就尝试一个不同的结构，但是所有这些结构之间共享权重。因为神经元不能依赖于其他特定神经元而存在，所以这种技术降低了神经元复杂的互适应关系。在测试时只需要除以 ${\frac{1}{1-rate}}$ 。

Local Response Normalization

局部响应归一化原理是仿造生物学上活跃的神经元对相邻神经元的抑制现象（侧抑制）。

本质上，这个层也是为了防止激活函数的饱和的。

${n=5}$ 是神经元的影响范围。

${k=2,\alpha=10^{-4},\beta=0.75}$ 是超参数。

参考资料:

参考文章：
https://www.cnblogs.com/gongxijun/p/6027747.html
https://blog.csdn.net/hjimce/article/details/50413257https://blog.csdn.net/taoyanqi8932/article/details/71081390--------------------- 作者：Rasin_Wu 来源：CSDN 原文：https://blog.csdn.net/Rasin_Wu/article/details/80017920 版权声明：本文为博主原创文章，转载请附上博文链接！

AlexNet总结的更多相关文章

神经网络模型之AlexNet的一些总结
说明: 这个属于个人的一些理解,有错误的地方,还希望给予教育哈- 此处以caffe官方提供的AlexNet为例. 目录: 1.背景 2.框架介绍 3.步骤详细说明 5.参考文献背景: AlexNet ...
#Deep Learning回顾#之LeNet、AlexNet、GoogLeNet、VGG、ResNet
CNN的发展史上一篇回顾讲的是2006年Hinton他们的Science Paper,当时提到,2006年虽然Deep Learning的概念被提出来了,但是学术界的大家还是表示不服.当时有流传的段 ...
【转】[caffe]深度学习之图像分类模型AlexNet解读
[caffe]深度学习之图像分类模型AlexNet解读原文地址:http://blog.csdn.net/sunbaigui/article/details/39938097 本文章已收录于: ...
how to change the AlexNet into FCNs ?
How to change the AlexNet into FCNs ? FCNs is a network that only contain convolution layers and no ...
[caffe]深度学习之图像分类模型AlexNet解读
在imagenet上的图像分类challenge上Alex提出的alexnet网络结构模型赢得了2012届的冠军.要研究CNN类型DL网络模型在图像分类上的应用,就逃不开研究alexnet.这是CNN ...
学习笔记TF030:实现AlexNet
ILSVRC(ImageNet Large Scale Visual Recognition Challenge)分类比赛.AlexNet 2012年冠军(top-5错误率16.4%,额外数据15.3 ...
AlexNet 网络详解及Tensorflow实现源码
版权声明:本文为博主原创文章,未经博主允许不得转载. 1. 图片数据处理 2. 卷积神经网络 2.1. 卷积层 2.2. 池化层 2.3. 全链层 3. AlexNet 4. 用Tensorflow搭 ...
学习笔记TF052:卷积网络，神经网络发展，AlexNet的TensorFlow实现
卷积神经网络(convolutional neural network,CNN),权值共享(weight sharing)网络结构降低模型复杂度,减少权值数量,是语音分析.图像识别热点.无须人工特征提 ...
【深度学习系列】用PaddlePaddle和Tensorflow实现AlexNet
上周我们用PaddlePaddle和Tensorflow实现了图像分类,分别用自己手写的一个简单的CNN网络simple_cnn和LeNet-5的CNN网络识别cifar-10数据集.在上周的实验表现 ...
TensorFlow实战之实现AlexNet经典卷积神经网络
本文根据最近学习TensorFlow书籍网络文章的情况,特将一些学习心得做了总结,详情如下.如有不当之处,请各位大拿多多指点,在此谢过. 一.AlexNet模型及其基本原理阐述 1.关于AlexNet ...

随机推荐

使用java操作kudu
使用maven导入kudu <dependency> <groupId>org.apache.kudu</groupId> <artifactId>ku ...
带你了解zabbix如何监控mysql主从到报警触发
本章博客我们一起来聊一聊如何监控mysql数据库主从状态? 思路梳理: 1)首先我们都知道,判断Mysql主从是否正常,是通过主从上面的SQL和IO线程都为yes状态判断(通过awk取值,grep过滤 ...
mac 命令操作
内核空间和用户空间 x86架构中将内核地址空间划分三部分:ZONE_DMA.ZONE_NORMAL和 ZONE_HIGHMEM. 自动加载(开机自动启动服务) ln -sfv /usr/local/o ...
初识Linux系统
1. pwd 显示现在所在位置 2. ls 显示目录下的文件 ls -a:显示隐藏文件(带 . 的就是隐藏文件): ls -a -l :每个文件夹的详细信息: ls > bbb (把查到的所有文 ...
Kmeans：利用Kmeans实现对多个点进行自动分类—Jason niu
import numpy as np def kmeans(X, k, maxIt): numPoints, numDim = X.shape dataSet = np.zeros((numPoint ...
Bloxorz I POJ - 3322 （bfs）
Little Tom loves playing games. One day he downloads a little computer game called 'Bloxorz' which m ...
浅析Linux服务器集群系统技术
浅析Linux服务器集群系统技术目录前言常用的服务器集群集群系统的优势 LVS集群的通用体系结构为什么使用层次的体系结构为什么是共享存储可伸缩Web服务前言总结两篇技术文章,努力学习 ...
001.Amoeba读写分离部署
一 Amoeba简介 Amoeba(变形虫)项目,该开源框架于2008年开始发布一款 Amoeba forMysql软件.这个软件致力于MySQL的分布式数据库前端代理层,它主要在应用层访问MySQ ...
Django之路由
Django的路由系统 URL配置(URLconf)就像Django所支撑网站的目录.它的本质是URL与要为该URL调用的视图函数之间的映射表. 我们就是以这种方式告诉Django,遇到哪个URL的时 ...
BZOJ.4515.[SDOI2016]游戏(树链剖分李超线段树)
BZOJ 洛谷每次在路径上加的数是个一次函数,容易看出是树剖+李超线段树维护函数最小值.所以其实依旧是模板题. 横坐标自然是取个确定的距离标准.取每个点到根节点的距离$dis[i]$作为\(i\ ...