论文阅读笔记二十一：MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS（ICRL2016）

论文源址：https://arxiv.org/abs/1511.07122

tensorflow Github:https://github.com/ndrplz/dilation-tensorflow

摘要

该文提出了空洞卷积模型，在不降低分辨率的基础上聚合图像中不同尺寸的上下文信息，同时，空洞卷积扩大感受野的范围。

介绍

语义分割具有一定的挑战性，因为要进行像素级的分类，同时，要考虑不同尺寸大小的上下文信息的推理。通过卷积外加反向传播的学习算法，使分类的准确率得到大幅度的提升。由原始的分类到像素级的分类，本文提出了两个问题：（1）重新构建的网络的哪一部分是有必要的，同时，哪个操作在进行密集分类时会降低分割结果的准确率。（2）设计一个专门用于进行密集分类的模型结构会提高分割的效果吗？

分类网络通过连续的卷积池化操作来融合不同尺寸的上下文信息，此过程中，分辨率在不断的减少，知道得到一个最总的预测分类结果。与之相反，分割任务要求在完整的分辨率上进行多尺寸的预测。针对此问题有两种解决方式：（1）通过反卷积操作恢复丢失的分辨率信息。这就引出一个疑问，中间下采样的操作是否是真的有必要的。（2）提供多尺寸的输入图片，并将这些图片的预测结果进行组合。同样，这里存在一个问题，对不同尺寸输入的图片，是否需要对他们的结果单独进行分析。

该文提出的空洞卷积模型，并未减少分辨率同时，不需要对不同尺寸输入图片对输出结果的影响进行分析。该结构主要用于分割任务，同时，值得注意的是空洞卷积的网络中并未有池化或者下采样的操作过程。通过空洞卷积即可获得较大的感受野。

空洞卷积

该文重点介绍空洞卷积的影响，而不是空洞卷积的构建，利用空洞卷积进行多尺寸的信息融合。空洞卷积核感受野的大小成指数增长，如下图。

卷积核大小kxk，dilation factor:n-推出感受野大小为：（k+1）x n - 1

多尺寸语义信息融合

语义模型通过融合多尺寸的上下文信息，来提高密集预测结构的效果。有C通道的输入feature maps输入模型后，输出C通道的feature maps。

该文提出的一种基础模型，包含7层网络，其中使用了不同dilation factor的3x3的卷积。dilations为【1，1，2，4，8，16】，每层上都有卷积操作，前两层，每层卷积后都接着一个像素级的截断处理，max(,0)。最后一层为1x1xc的卷积，并产生输出，，结构如下表，输入为64x64的图片。

该文该开始用标准的初始化流程训练网络，结果并不理想。卷积网络一般使用随机采样分布进行初始化操作。但这种方式对空洞卷积效果甚微，该文转而用如下Identity初始化方式。

这种初始化方式，会让前一层的信息直接流入下一层中，直觉上感到不利于反向传播信息的传递，但实验证明，这种担心是多余的。对于不同深度的初始化按如下方式进行。

前端

该网络的输入为三通道的彩色图像，输出为21通道的特征图，基于VGG16进行改进，将其中最后两层池化层与全连接层。对于移除的池化层后接的卷积层的dilation factor扩大2倍。因此，最后一层的卷积层的的dilated factor扩大为4。通过空洞卷积，可以利用原始分类网络的参数初始化，同时产生更高分辨率的输出。该模型，在Pascal VOC2012数据集上进行训练，基于SGD优化方法，mini-batch 大小为14，学习率为1e-3，动量大小为0.9，迭代60000次。

实验

reference

Badrinarayanan, Vijay, Handa, Ankur, and Cipolla, Roberto. SegNet: A deep convolutional encoder-decoder architecture for robust semantic pixel-wise labelling. arXiv:1505.07293, 2015.

Brostow,GabrielJ.,Fauqueur,Julien,andCipolla,Roberto. Semanticobjectclassesinvideo: Ahigh-deﬁnition ground truth database. Pattern Recognition Letters, 30(2), 2009.

Chen, Liang-Chieh, Papandreou, George, Kokkinos, Iasonas, Murphy, Kevin, and Yuille, Alan L. Semantic image segmentation with deep convolutional nets and fully connected CRFs. In ICLR, 2015a.

论文阅读笔记二十一：MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS（ICRL2016）的更多相关文章

论文阅读笔记五十一：CenterNet: Keypoint Triplets for Object Detection(CVPR2019)
论文链接:https://arxiv.org/abs/1904.08189 github:https://github.com/Duankaiwen/CenterNet 摘要目标检测中,基于关键点的 ...
论文阅读笔记四十一：Very Deep Convolutional Networks For Large-Scale Image Recongnition（VGG ICLR2015）
论文原址:https://arxiv.org/abs/1409.1556 代码原址:https://github.com/machrisaa/tensorflow-vgg 摘要本文主要分析卷积网络的 ...
论文阅读笔记三十一：YOLO 9000: Better,Faster,Stronger(CVPR2016)
论文源址:https://arxiv.org/abs/1612.08242 代码:https://github.com/longcw/yolo2-pytorch 摘要本文提出YOLO9000可以检测 ...
论文阅读笔记二十七：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks（CVPR 2016）
论文源址:https://arxiv.org/abs/1506.01497 tensorflow代码:https://github.com/endernewton/tf-faster-rcnn 室友对 ...
论文阅读笔记二十五：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPPNet CVPR2014）
论文源址:https://arxiv.org/abs/1406.4729 tensorflow相关代码:https://github.com/peace195/sppnet 摘要深度卷积网络需要输入 ...
论文阅读笔记二十四：Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(R-CNN CVPR2014)
论文源址:http://www.cs.berkeley.edu/~rbg/#girshick2014rcnn 摘要在PASCAL VOC数据集上,最好的方法的思路是将低级信息与较高层次的上下文信息进 ...
论文阅读笔记二十九：SSD: Single Shot MultiBox Detector(ECCV2016)
论文源址:https://arxiv.org/abs/1512.02325 tensorflow代码:https://github.com/balancap/SSD-Tensorflow 摘要 SSD ...
论文阅读笔记二十八：You Only Look Once: Uniﬁed,Real-Time Object Detection(YOLO v1 CVPR2015)
论文源址:https://arxiv.org/abs/1506.02640 tensorflow代码:https://github.com/nilboy/tensorflow-yolo 摘要该文提出 ...
论文阅读笔记二十六：Fast R-CNN (ICCV2015)
论文源址:https://arxiv.org/abs/1504.08083 参考博客:https://blog.csdn.net/shenxiaolu1984/article/details/5103 ...

随机推荐

python第四天，list补充
当我们创建的列表中,元素的排列顺序常常是无法预测的,因为我们并非总能控制用户提供数据的顺序.这虽然在大多数情况下都是不可避免的,但我们经常需要以特定的顺序从呈现信息.有时候,我们希望保留列表元素最初的 ...
20165221 JAVA第三周学习心得
知识点回顾类与对象学习总结类:java作为面向对象型语言具有三个特性:①封装性.②继承性.③多态性.java中类是基本要素,类声明的变量叫对象.在类中定义体的函数题叫方法. 类与程序的基本结构: ...
sqlmap 使用笔记
1.sqlmap -hh 查看详细说明 2.使用google proxychains sqlmap -g " inurl:\".php?id=1\" " 自动发 ...
DAC杂谈二 ——ADC和DAC常用技术术语
采集时间采集时间是从释放保持状态(由采样-保持输入电路执行)到采样电容电压稳定至新输入值的1 LSB范围之内所需要的时间.采集时间(Tacq)的公式如下: 混叠根据采样定理,超过奈奎斯特频率的输入 ...
tar.gz压缩，查看，解压
本次使用的压缩格式是*.tar.gz,用到的命令如下: 压缩: tar -czf jpg.tar.gz *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用gzip压缩,生成一个g ...
mipi LCD 的CLK时钟频率与显示分辨率及帧率的关系【转】
转自:https://blog.csdn.net/bmw7bmw7/article/details/45876487 我们先来看一个公式:Mipiclock = [ (width+hsync+hfp+ ...
ajax-hook
// ==UserScript== // @name ajax hook 调试 // @namespace http://tampermonkey.net/ // @version 0.1 // @d ...
python中input和raw_input函数
python input() 相等于 eval(raw_input(prompt)) ,用来获取控制台的输入. raw_input() 将所有输入作为字符串看待,返回字符串类型.而 input() 在 ...
Unity3D之IOS&Android收集Log文件
开发项目的时候尤其在处理与服务器交互这块,如果服务端程序看不到客户端请求的Log信息,那么无法修改BUG.在Windows上Unity会自动讲Log文件写入本地,但是在IOS和Android上确没有这 ...
解决由腾讯qq浏览器引起win10系统桌面图标不停的闪烁问题
win10系统桌面图标不停的闪烁,虽然不会引起太大问题,但是看着实在郁闷在网上搜索了很久,像停止问题报告服务,重置为默认应用都无解,了解到大概是软件兼容性问题于是打开服务管理器,一个一个关闭不是微软的 ...

论文阅读笔记二十一：MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS（ICRL2016）

论文阅读笔记二十一：MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS（ICRL2016）的更多相关文章

随机推荐

热门专题