【转载】 CNN训练Cifar-10技巧
原文地址:
https://www.cnblogs.com/neopenx/p/4480701.html
======================================
关于数据集
Cifar-10是由Hinton的两个大弟子Alex Krizhevsky、Ilya Sutskever收集的一个用于普适物体识别的数据集。Cifar是加拿大政府牵头投资的一个先进科学项目研究所。
说白了,就是看你穷的没钱搞研究,就施舍给你。Hinton、Bengio和他的学生在2004年拿到了Cifar投资的少量资金,建立了神经计算和自适应感知项目。
这个项目结集了不少计算机科学家、生物学家、电气工程师、神经科学家、物理学家、心理学家,加速推动了DL的进程。从这个阵容来看,DL已经和ML系的数据挖掘分的很远了。
DL强调的是自适应感知和人工智能,是计算机与神经科学交叉。DM强调的是高速、大数据、统计数学分析,是计算机和数学的交叉。
Cifar-10由60000张32*32的RGB彩色图片构成,共10个分类。50000张训练,10000张测试(交叉验证)。这个数据集最大的特点在于将识别迁移到了普适物体,而且应用于
多分类(姊妹数据集Cifar-100达到100类,ILSVRC比赛则是1000类)。
可以看到,同已经成熟的人脸识别相比,普适物体识别挑战巨大,数据中含有大量特征、噪声,识别物体比例不一。而且分类庞大(SVM直接跪哭)。
因而,Cifar-10相对于传统图像识别数据集,是相当有挑战的。
Alex Krizhevsky在2012年的论文ImageNet Classification with Deep Convolutional Neural Networks 使用了一些改良CNN方法去
解决普适物体识别难题,效果惊人。尤其是开创性地使用了CUDA来加速神经网络训练,并且开放了Cuda-Convnet和绝秘CNN结构,群众反响热烈。
于是就有了今年GTC 2015老黄手捧着TitanX大喊:NVIDIA显卡伴你更好深度学习!在通用计算上,CUDA确实多方面压制OpenCL。
Part I 总览
1.1 Cifar-10的训练走向
Alex的论文里可能困惑最大的就是这张奇葩的图。使用了ReLu的CNN在batchsize为100的训练中,epoch 5(2500次迭代,显卡好点只要80s)就把验证集错误率降到了25%。
而Tanh则要花上35个epoch。困惑点有两个:①居然下降那么快②我照着传统CNN模型改改,为什么只能降到30%,而且还在50+ epochs。
然后Alex又来了一句,我们的改良CNN已经把Cifar-10的错误率降到了11%。难怪LeCun会说:已解决CIFAR-10,目标 ImageNet(ILSVRC)。
1.2 快速简易结构
已有的测试推出了一个Cifar-10的CNN深度、广度基本结构,理论上这个网络容量能够支持把验证集错误率降到25%左右。结构如下:
Part II ReLu激活函数、初始化W、学习率、样本均值归一化
2.1 ReLu
Xavier刚在2011年的Deep Sparse Rectifier Neural Networks论文中给出了ReLu在非监督学习网络中的卓越成效。
Alex就在2012年的AlexNet中,把所有Tanh/Logistic全换成了ReLu(卷积+隐层,Softmax要取概率没办法),但是没有介绍细节。(在其源码中可以看到)
正如我的前一篇文章ReLu激活函数提到的,ReLu为网络引入了大量的稀疏性,加速了复杂特征解离。非饱和的宽广映射空间,加速了特征学习。
实际测Model的时候,可以对比一下tanh和ReLu。
2.2 初始化W
2.3 学习率
ReLu的线性不饱和激活端着相对于Tanh的双饱和端(经验规则0.1),肯定要降量级。
Caffe和Alex给的Model基础都是0.001(W)/0.002(b)。
至于为什么Bias的学习率是2倍,个人猜测是更快抑制Wx加权结果,加速学习。
2.4 样本均值归一化(重点)
Alex 和 Caffe中的初始化参数都是基于均值归一化的,如果不做归一化,会因为输入大了一半,导致训练失败。
这也是为什么Caffe强制为样本计算图像均值的原因。
一个简单策略是:训练样本均值归一化。即对训练集所有样本计算各个维度的均值(比如32x32图像,就应该有32x32个均值)
并且将均值存储起来。训练网络时,训练集、验证集减去存起来的均值。测试网络时,测试集减去存起来的均值。(一定要全减去训练集的均值)
这样,像素值[0,255]被调整成了近似[-128,128]。
尽管图像数据格式规整,但是做一做归一化还是挺有用处的。
Part III 重叠降采样、均采样
3.1 重叠
传统的CNN中,Pooling是不重叠的。不重叠忽视了邻近像素的对特征的影响,会造成网络精度下降。(不做重叠Pooling,很难迅速达到25%)
Alex在paper中还提到,重叠Pooling一定程度上减轻了过拟合。
为了对比测试重叠/非重叠模型,我在Caffe中对默认的Fast Model进行了修改。
参数~Kernel Conv1:(3,3)、Conv2:(4,4)、Conv3:(5,5) Pooling大小都是(2,2),在epoch 9开始,lr降一个量级。
Epoch/Model | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
重叠(默认) | 44% | 37% | 34% | 30% | 30% | 30% | 30% | 30% | 25% | 25% |
非重叠(修改) | 52% | 44% | 39% | 37% | 35% | 34% | 33% | 32% | 29% | 29% |
6 | 7 | 8 | 9 | 10 |
30% | 30% | 30% | 25% | 25% |
34% | 33% | 32% | 29% | 29% |
可以看到,重叠结构带来更高的精度和更快的特征学习。
3.2 均采样
值得注意的是,重叠结构在提高精度的同时,可能引入噪声。而Alex则在Conv2、Conv3全使用了Avg Pooling
我猜测可能和Pooling的重叠结构有关,如果对不断重叠的Pooling结果,依旧全使用Max Pooling,那么有更大可能把噪声放大了。
而此时使用Avg Pooling就能把引入的噪声给降噪。于是,我在Caffe中对默认重叠模型,进行了不同组合Pooling的测试。
【分析】
可以看到,Alex使用的Max+Avg+Avg无论在精度,还是在速度上,都远超其他组合。
Max+Max+Max在速度和精度上都不如Max+Max+Avg,说明Avg的引入效果还不错。
比较奇葩的下面3个组合,我们首先看到的是Avg+Avg+Avg,在错误率下降速度方面排倒数第一。网络训练速度也是倒一(Avg计算比Max慢)
然后是Avg+Max+Max,在精度方面排倒数第一,而在Conv3用Avg换掉Max就好很多。
【总结】
从Avg Pooling角度来看,这玩意不仅计算量大,而且引入噪声,比Max Pooling不知差到哪里去了。
所以,凡是在Conv1使用Avg Pooling的,都没有好果子吃,精度太差。所以,没有重叠的Conv1更应该考虑使用Max Pooling。
在Conv2、Conv3中,使用Avg反而效果很好了,可能原因是抵消了重叠结构带来的部分噪声。两个Avg效果好于一个Avg,说明Avg也不是那么坏嘛。
3.3 非重叠均采样
然而当我把上述组合用在非重叠结构里时,看起来不太对劲。
可以看到,此时Max+Max+Max在速度上领先了Max+Avg+Avg,这和重叠结构的情况相反。
Avg+Avg+Avg依旧最差,Avg+Max+Max也不好过,因为它在Conv1用了Avg。
对比了两个结构,不难发现,Avg在重叠结构里面作用巨大,而在非重叠结构里面,如果用Avg,则会影响网络训练。
除此之外,不难发现,非重叠结构的精度明显不如重叠结构,这也是为什么Alex论文贴的那张图比较奇葩了。
Cifar-10想要快速达到25%错误率,传统LeNet修改版结构是很难满足要求的。
3.3 长时间完全训练
来自Caffe中的full_train,跑完vaild error大概可以优化到 19%。
这个数字的贡献有二:
①重叠结构:
非重叠结构在epoch 10左右达到临界29%,之后再训练,会衰退到32%~35%
而重叠结构加Max Pooling,最后能维持在28%左右,最后降低学习率,大概能提升到25%
②Avg Pooling
重叠结构+Avg Pooling的突破点在epoch 20~30,这时候,与Max Pooling不同的是,error,突的一下,
从28%掉到23%。然后在epcoh 40, lr降一个量级后,从23%飙到19%。
可以看到Avg Pooling和重叠结构带来的精度提升,在训练后期,真是厚积薄发。
3.4 基本没有用的LRN层
尽管Caffe中默认是加上去的,但是根据作者在知乎的说法,只是为了尊重前人的成果。
examples只是简单的复现了Alex的结构。
============================================
【转载】 CNN训练Cifar-10技巧的更多相关文章
- CNN训练中的技巧
转自: http://weibo.com/p/1001603816330729006673 说明:这个翻译应该是来自原文:http://yyue.blogspot.hk/2015/01/a-brief ...
- 【翻译】TensorFlow卷积神经网络识别CIFAR 10Convolutional Neural Network (CNN)| CIFAR 10 TensorFlow
原网址:https://data-flair.training/blogs/cnn-tensorflow-cifar-10/ by DataFlair Team · Published May 21, ...
- 【神经网络与深度学习】基于Windows+Caffe的Minst和CIFAR—10训练过程说明
Minst训练 我的路径:G:\Caffe\Caffe For Windows\examples\mnist 对于新手来说,初步完成环境的配置后,一脸茫然.不知如何跑Demo,有么有!那么接下来的教 ...
- tensorflow训练了10万次,运行完毕,对这个word2vec终于有点感觉了
tensorflow训练了10万次,运行完毕,对这个word2vec终于有点感觉了 感觉它能找到词与词之间的关系,应该可以用来做推荐系统.自动摘要.相关搜索.联想什么的 tensorflow1.1.0 ...
- CNN训练Cifar-10技巧
关于数据集 Cifar-10是由Hinton的两个大弟子Alex Krizhevsky.Ilya Sutskever收集的一个用于普适物体识别的数据集.Cifar是加拿大政府牵头投资的一个先进科学项目 ...
- 转载:Qt之界面实现技巧
总结一下,在开发Qt的过程中的一些技巧!可遇而不可求... 一.主界面 1.窗口 最小化 最大化 关闭按钮.显示状态自定义 setWindowFlags(Qt::CustomizeWindowHint ...
- (转载)PHP 提示和技巧
(转载)http://www.111cn.net/phper/21/b4aea31507014a778b18682943db402f.htm 1. 当您在寻找关于某个具体的 PHP 函数的信息时,请转 ...
- fasttext和cnn的比较,使用keras imdb看效果——cnn要慢10倍。
fasttext: '''This example demonstrates the use of fasttext for text classification Based on Joulin e ...
- caffe训练CIFAR数据库
CIFAR-10是一个用于普适物体识别的数据集.Cifar-10由60000张32*32的RGB彩色图片构成,50000张训练图片,10000张测试图片,分为10类.cifar下载地址: http:/ ...
- [转载] Tmux 速成教程:技巧和调整
原文: http://blog.jobbole.com/87584/ 决定从 screen 转向 tmux 了, 非常喜欢 tmux 的窗格功能. 简介 有些开发者经常要使用终端控制台工作,导致最终打 ...
随机推荐
- The model backing the 'MainDbContext' context has changed since the database was created. Consider using Code First Migrations to update the database (http://go.microsoft.com/fwlink/?LinkId=238269).
The model backing the 'MainDbContext' context has changed since the database was created. Consider u ...
- 开源的Datadog?可观测性平台SigNoz是否名副其实?
SigNoz号称自己是开源领域的Datadog,基于OpenTelemetry做了一套可观测性方案.夜莺从V6版本开始,也希望做全栈可观测性方案,巧了,大家目标一致,今天我们一起来对SigNoz做个初 ...
- vitepress 如何更换 favicon.ico
favicon.ico 它出现在浏览器标签页上,是网站的标识之一. 准备图标 首先,你需要准备一个符合您要求的图标.通常,favicon.ico 使用的是 .ico 格式的图标文件,大小为 16x16 ...
- 微信小程序自动化分析_包含执行设备及对应的微信版本
背景介绍: 微信小程序是基于腾讯自研 X5 内核,不是谷歌原生 webview. 实现方式: 1.小程序自动化sdk,使用自动化sdk,需要有小程序的开发者权限,以及参考的资料较少,2.选择采用app ...
- 阿里云ECS主机自建SNAT,实现没有公网的主机通过有公网的主机访问外网
目的: SNAT:实现没有公网IP的ECS实例借助有公网的ECS访问外网 实现前提: 有公网的主机与没有公网的主机必须处在同一个VPC安全组(确保两个主机互通才可以) 全程都在有公网的主机上操作 开启 ...
- 07-Linux文件权限管理
文件的类型 Linux的哲学思想:一切皆文件. Linux的文件分为多种类型. 可以通过ll命令查看文件的类型: ll #输出: -rw-------. 1 root root 1266 2月 29 ...
- Python 引用不确定的函数
在Python中,引用不确定的函数通常意味着我们可能在运行时才知道要调用哪个函数,或者我们可能想根据某些条件动态地选择不同的函数来执行.这种灵活性在处理多种不同逻辑或根据不同输入参数执行不同操作的场景 ...
- Java 核心基础之static静态代码块和静态方法
static静态代码块和静态方法 static关键字 static修饰的方法或变量,优先于对象执行,所以内存会先有static修饰的内容,后有对象的内容 可以用来修饰类的成员方法.类的成员变量,还可以 ...
- 历代iPad及Android平板的主要参数对比
「程序员的备忘录系列」这笔记可是持续更新的哦 逻辑分辨率Point,也就是CSS像素,是进行网页适配的关键,以下是平时整理的一些备忘录数据,可以收藏. 以现在平板的销量,还没有手机的十分之一, ...
- PAT-1003 我要通过! (20分) JavaScript(node)
"答案正确"是自动判题系统给出的最令人欢喜的回复.本题属于 PAT 的"答案正确"大派送 -- 只要读入的字符串满足下列条件,系统就输出"答案正确&q ...