cs231n spring 2017 lecture9 CNN Architectures

参考《deeplearning.ai 卷积神经网络 Week 2 听课笔记》。

1. AlexNet（Krizhevsky et al. 2012），8层网络。

　　学会计算每一层的输出的shape：对于卷积层，输出的边长 =（输入的边长 - filter的边长）/ 步长 + 1，输出的通道数等于filter的数量。每个filter的通道数等于输入的通道数。卷积层的参数 = filter的长 * filter的宽 * 输入的通道数 * filter的数量。池化层没有需要学习的参数。

　　图中分成两个通道是为了在不同GPU上处理。

　　2013年的ZFNet延续了AlexNet的架构（也是8层网络），优化了参数，取得了更好的效果（错误率从16.4%降到11.7%）。

2. VGGNet（Simonyan and Zisserman, 2014），16~19层网络。

　　三个3*3的filter串联等价于一个7*7的filter，用更小的filter的好处是增加了网络的深度，增加了非线性程度，更少的参数。

3. GoogLeNet（Szegedy et al., 2014）

　　Inception module是同时用不同的filter（1*1,3*3,5*5，Pooling），并把结果堆叠起来。这样做的缺点是计算量变大。解决的办法是先用1*1的卷积压缩通道数量（参考《deeplearning.ai 卷积神经网络 Week 2 听课笔记》）。

4. ResNet（He et al., 2015），152层网络。

　　解决了很深的网络难优化的问题。

　　对于深度的网络（ResNet-50+），类似GoogLeNet用1*1的卷积层去压缩通道数以提高效率。

5. 复杂度的比较

6. 其他一些网络

　　Network in Network （NiN）（Lin et al., 2014）：启发了GoogLeNet和ResNet的“bottleneck”层（1*1卷积层）。

　　Identity Mappings in Deep Residual Networks (He et al., 2016)：ResNet的改进。

　　Wide Residual Networks (Zagoruyko et al., 2016)：认为residuals是很重要的，而不是深度。增加宽度而不是深度，会计算更有效。50层的宽的ResNet比152层的原始的ResNet更好。

　　ResNeXt (Xie et al., 2016)：也是增加宽度，和Inception module很类似的想法。

　　Deep Networks with Stochastic Depth (Huang et al., 2016)：为了解决梯度消失的问题，随机地drop掉一些层。在测试阶段使用全部的网络，不drop任何层。

　　FractalNet （Larsson et al., 2017）：认为residual不是必须的，重要的是浅层到深层的有效传递（transitioning），训练阶段也是随机drop掉一些层，测试阶段不drop任何层。

　　Densely Connected Convolutional Networks (Huang et al., 2017)：为了解决梯度消失的问题，每一层与其他层更稠密的连接。

　　SqueezeNet （Landola et al., 2017）：更少的参数，更好的准确度。

7. 总结

　　VGG、GoogLeNet、ResNet被广泛应用，现在已经是集成到各个现成框架。

　　ResNet是当今最佳，默认选项。

　　趋势是越来越深的网络。

　　很多研究集中在设计层与层之间的连接方式，为了改善梯度的传播。

　　最新的研究在争论深度和宽度，以及residual的必要性。

cs231n spring 2017 lecture9 CNN Architectures的更多相关文章

cs231n spring 2017 lecture9 CNN Architectures 听课笔记
参考<deeplearning.ai 卷积神经网络 Week 2 听课笔记>. 1. AlexNet(Krizhevsky et al. 2012),8层网络. 学会计算每一层的输出的sh ...
cs231n spring 2017 lecture13 Generative Models 听课笔记
1. 非监督学习监督学习有数据有标签,目的是学习数据和标签之间的映射关系.而无监督学习只有数据,没有标签,目的是学习数据额隐藏结构. 2. 生成模型(Generative Models) 已知训练数 ...
cs231n spring 2017 lecture7 Training Neural Networks II 听课笔记
1. 优化: 1.1 随机梯度下降法(Stochasitc Gradient Decent, SGD)的问题: 1)对于condition number(Hessian矩阵最大和最小的奇异值的比值)很 ...
cs231n spring 2017 lecture13 Generative Models
1. 非监督学习监督学习有数据有标签,目的是学习数据和标签之间的映射关系.而无监督学习只有数据,没有标签,目的是学习数据额隐藏结构. 2. 生成模型(Generative Models) 已知训练数 ...
cs231n spring 2017 lecture7 Training Neural Networks II
1. 优化: 1.1 随机梯度下降法(Stochasitc Gradient Decent, SGD)的问题: 1)对于condition number(Hessian矩阵最大和最小的奇异值的比值)很 ...
cs231n spring 2017 lecture11 Detection and Segmentation 听课笔记
1. Semantic Segmentation 把每个像素分类到某个语义. 为了减少运算量,会先降采样再升采样.降采样一般用池化层,升采样有各种"Unpooling"." ...
cs231n spring 2017 Python/Numpy基础 (1)
本文使根据CS231n的讲义整理而成(http://cs231n.github.io/python-numpy-tutorial/),以下内容基于Python3. 1. 基本数据类型:可以用 prin ...
cs231n spring 2017 lecture11 Detection and Segmentation
1. Semantic Segmentation 把每个像素分类到某个语义. 为了减少运算量,会先降采样再升采样.降采样一般用池化层,升采样有各种“Unpooling”.“Transpose Conv ...
cs231n spring 2017 Python/Numpy基础
本文使根据CS231n的讲义整理而成(http://cs231n.github.io/python-numpy-tutorial/),以下内容基于Python3. 1. 基本数据类型:可以用 prin ...

随机推荐

delphi try except与try finally语句用法以及区别
一.异常的来源在Delphi的应用程序中,下列的情况都比较有可能产生异常. (1)文件处理 (2)内存分配 (3)Windows资源 (4)运行时创建对象和窗体 (5)硬件和操作系统冲突二.异常的 ...
17.3.12--uillib模块
1---uillib是python标准库中最常用的一个python网络应用资源访问的模块,他可以让你像访问文本一样,读取网页的内容它的作用是访问一些不需要验证的网络资源和cookie等 uillib ...
JavaEE--分布式对象
参考:http://blog.csdn.net/smcwwh/article/details/7080997 1.客户与服务器的角色所有分布式编程技术的基本思想都很简单:客户计算机产生一个请求,然后 ...
MySQL--OPTIMIZE TABLE碎片整理
参考:http://blog.51yip.com/mysql/1222.html BLOB和TEXT值会引起一些性能问题,特别是在执行了大量的删除操作时.删除操作会在数据表中留下很大的空洞,以后填入这 ...
学习数论 HDU 4709
经过杭师大校赛的打击,明白了数学知识的重要性开始学习数论,开始找题练手 Herding HDU - 4709 Little John is herding his father's cattles. ...
微信小程序裁剪图片后上传
上传图片的时候调起裁剪页面,裁剪后再回调完成上传; 图片裁剪直接用we-cropper https://github.com/we-plugin/we-cropper we-cropper使用详细 ...
mysql 数据库保存\n 微信分享时不能换行
主要因为保存的是\n 但是查询出来是\\n 所以需要把\\n替换为\n即可(不转换的话不会换行并且显示\n)
【Java杂货铺】用Security做权限极简入门
原来大多数单体项目都是用的shiro,随着分布式的逐渐普及以及与Spring的天生自然的结合.Spring Security安全框架越受大家的青睐.本文会教你用SpringSecurity设计单项目的 ...
编译原理_P1004
龙书相关知识点总结 //*************************引论***********************************// 1. 编译器(compiler):从一中语言( ...
shell_innobackup增量备份步骤
alias start='service mysql.server start'alias restart='service mysql.server restart'alias stop='serv ...

cs231n spring 2017 lecture9 CNN Architectures

cs231n spring 2017 lecture9 CNN Architectures的更多相关文章

随机推荐

热门专题