论文阅读笔记九:SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS (DeepLabv1)(CVPR2014)
论文链接:https://arxiv.org/abs/1412.7062
摘要
该文将DCNN与概率模型结合进行语义分割,并指出DCNN的最后一层feature map不足以进行准确的语义分割,DCNN具有很强的空间不变性,因此比较擅长高层次的任务。该文通过在DCNN的最后一层添加一层CRF用来克服定位不准的问题。该文通过引入空洞算法来提高模型在GPU上的运行速度。
介绍
该文的一个主题是采用进行end-to-end训练的DCNN,相比传统的依赖,SIFT或者HOG等人工设计的特征会产生喜人的分割效果。部分原因可能是DCNN对图像变换局部区域的不变性,从而可以更好的学习抽象的信息。但另一方面却削弱了低层次类型的任务,像姿态估计,语义分割等需要精细定位的任务。
DCNN应用于图像标记任务主要存在两个技术障碍,下采样和空间不变性。第一个问题是在标准的DCNN中由于连续的池化和下采样导致单一分辨率的缺失,为此,该文引用了空洞卷积算法,可以使DCNN的计算更加密集。第二个问题是实际中我们分类器所作的是以目标物体中心决定分类的,这就决定需要空间信息的不变性,这就限制了DCNN的空间信息的准确性。该文通过后接一个全连接的条件随机场(CRF)来获得更加较好的细节。CRF将不同类别的分类器计算得到的class score与局部(像素,边和超像素等)捕捉的低层次信息进行结合。尽管更加复杂的工作已经提出来模拟层次的依赖性,但CRF在考虑远距离依赖的情形时,其计算较为高效,也可以较好的捕捉边界细节信息。
该文的三个主要贡献:(1)速度:借用空洞算法,可以使DCNN在8fps。(2)准确率:在PASCAL语义分割上的挑战获得最好成绩,并超第二7.2%(3)简单性:DCNN只由DCNNs与CRFs两部分组成。
相关工作
使用自上而下的图像分割级联与基于DCNN的区域分类,使得系统可能会在分割系统的前端产生潜在误差。有一种方法是通过一系列不同的CRF为基础的分割proposals,然后将proposals根据DCNN针对相对级别训练好的模型进行重新分级操作。虽然此法想要解决分割网络前端的本质问题,但仍无法很好的解释CRF分割算法的DCNN的Scores,这里DCNN只用作后处理。
方法
首先是基于空洞算法的密集滑动窗来进行特征提取,首先,将VGG-16的全连接层替换为卷积层,结果是生成的检测scores很稀疏,该文在VGG-16最后两个最大池化层后跳过下采样,同时,改变最后三层卷积层与全连接层的卷积核,在他们之间添加0来增加他们的长度。通过引入空洞卷积,可以使我们能够以任意的下采样rate准确的得到密集CNN的feature map。
其次,该文对VGG-16进行微调,将其最后一层的类别1000的分类器替换为类别21的一个,损失函数是卷积output map上每个空间位置交叉熵的求和。运用标准的SGD优化每一层网络的权重。在进行测试时,需要将class socre map还原为原始图像的分辨率。如下图,由于class score maps 十分平滑,可以通过简单的双线性插值近似的将其提高8倍分辨率。
最后,另一个关键因素使网络感受野的大小,VGG-16的感受野为224x224,如果应用卷积后,为404x404,将VGG-16变为全卷积后,第一个全连接层会有4096个大小为7x7的filters,这大大增加了计算的难度。该文减少第一个全连接层filter的空间尺寸(3x3),但也相对应的减少了网络的感受野(128x128 or308x308),减少了2到3倍的计算时间,同时,全连接层通道数的减小也有效果。
通过上面的图可以看出来,DCNN的score map 可以大致勾画出物体的轮廓,但细节上仍存在较大差距,卷积网络中,分类与定位之间有一个平衡,具有多层池化的更深层的网络在分类任务上取得的效果更好,然而, 这里有一点问题就是,增加的不变性和较大的感受野使从最后的层预测出位置会有很大的挑战。通过利用卷积网络中多层信息,来更好的估计分割边界,另一种方法是采用超像素表示,将定位任务分给低级的分割方法。
该文首先利用DCNN的识别能力,后接全连接的CRF来提高位置的准确性,通常,CRF包含相邻节点的能量项,有利于将相同的标签分配到空间上相近的像素。本质上,short-range CRF的作用是清除由基于局部手工设计分类器产生的错误预测。相比弱分类器,DCNN得到的score maps 更加平滑,此时,再使用short-range CRF可能是有害的,因为目的不是为了平滑边界而是回复局部细节,因为经过DCNN后已经很平滑了。为了解决short-range CRF的弊端,引入了全连接CRF。
实验
参考
1.Adams, A., Baek, J., and Davis, M. A. Fast high-dimensional filtering using the permutohedral lattice. In Computer Graphics Forum, 2010.
2.Arbel´aez, P., Pont-Tuset, J., Barron, J. T., Marques, F., and Malik, J. Multiscale combinatorial grouping. In CVPR, 2014.
论文阅读笔记九:SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS (DeepLabv1)(CVPR2014)的更多相关文章
- 论文阅读笔记十:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (DeepLabv2)(CVPR2016)
论文链接:https://arxiv.org/pdf/1606.00915.pdf 摘要 该文主要对基于深度学习的分割任务做了三个贡献,(1)使用空洞卷积来进行上采样来进行密集的预测任务.空洞卷积可以 ...
- 论文阅读笔记三十五:R-FCN:Object Detection via Region-based Fully Convolutional Networks(CVPR2016)
论文源址:https://arxiv.org/abs/1605.06409 开源代码:https://github.com/PureDiors/pytorch_RFCN 摘要 提出了基于区域的全卷积网 ...
- 论文阅读笔记十八:ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation(CVPR2016)
论文源址:https://arxiv.org/abs/1606.02147 tensorflow github: https://github.com/kwotsin/TensorFlow-ENet ...
- 论文阅读笔记六十四: Architectures for deep neural network based acoustic models defined over windowed speech waveforms(INTERSPEECH 2015)
论文原址:https://pdfs.semanticscholar.org/eeb7/c037e6685923c76cafc0a14c5e4b00bcf475.pdf 摘要 本文研究了利用深度神经网络 ...
- 论文阅读笔记十六:DeconvNet:Learning Deconvolution Network for Semantic Segmentation(ICCV2015)
论文源址:https://arxiv.org/abs/1505.04366 tensorflow代码:https://github.com/fabianbormann/Tensorflow-Decon ...
- 论文阅读笔记十四:Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation(CVPR2015)
论文链接:https://arxiv.org/abs/1506.04924 摘要 该文提出了基于混合标签的半监督分割网络.与当前基于区域分类的单任务的分割方法不同,Decoupled 网络将分割与分类 ...
- 论文阅读笔记三十八:Deformable Convolutional Networks(ECCV2017)
论文源址:https://arxiv.org/abs/1703.06211 开源项目:https://github.com/msracver/Deformable-ConvNets 摘要 卷积神经网络 ...
- 论文阅读笔记二十三:Learning to Segment Instances in Videos with Spatial Propagation Network(CVPR2017)
论文源址:https://arxiv.org/abs/1709.04609 摘要 该文提出了基于深度学习的实例分割框架,主要分为三步,(1)训练一个基于ResNet-101的通用模型,用于分割图像中的 ...
- 论文阅读笔记二十一:MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS(ICRL2016)
论文源址:https://arxiv.org/abs/1511.07122 tensorflow Github:https://github.com/ndrplz/dilation-tensorflo ...
随机推荐
- 在Linux环境下安装Python3
参考链接:https://blog.csdn.net/zhangdongren/article/details/82685932
- python第一天,简单输出及基本运算符
1.安装步骤网上很多详细的图文资料,这里就不一一赘述. 我的环境:win7 64bit +python-3.7.0b2 2.简单的输出(3.0之后和之前的版本略有不同) 1)打开控制台输入python ...
- MySql DDL语言(数据库和数据表的管理)
数据定义语言,负责数据库和数据表的管理 ⒈数据库的管理 1.创建数据库 create database if not exists DatabaseName; #if not exists可以省略 2 ...
- MySQL入门简介(转载)
转载链接:https://www.cnblogs.com/webnote/p/5753996.html MySQL的相关概念介绍 MySQL 为关系型数据库(Relational Database M ...
- CGI,FastCGI,PHP-CGI与PHP-FPM区别详解【转】
CGI CGI全称是“公共网关接口”(Common Gateway Interface),HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具,其程序须运行在网络服务器上. CGI可以用任何一 ...
- Redis 通过 info 查看信息和状态
INFO INFO [section] 以一种易于解释(parse)且易于阅读的格式,返回关于 Redis 服务器的各种信息和统计数值. 通过给定可选的参数 section ,可以让命令只返回某一部分 ...
- 纪念一下我对Kalman的无限崇拜之情
今天用Kalman来求线性预测模型的系数,和LMS一对比,天啦噜,我感叹了半小时... 和LMS需要选合适的步长,样本序列需要足够长,迭代次数需要足够多,相比,卡尔曼真是帅呆了!不需要步长!不需要蒙特 ...
- HTML5在线预览PDF
简介 PDF.js is a Portable Document Format (PDF) viewer that is built with HTML5. PDF.js is community-d ...
- hibernate框架学习之数据查询(HQL)
lHibernate共提供5种查询方式 •OID数据查询方式 •HQL数据查询方式 •QBC数据查询方式 •本地SQL查询方式 •OGN数据查询方式 OID数据查询方式 l前提:已经获取到了对象的OI ...
- TX2 开发套件串口
TX2的底板上有三个串口,位于J21的ttyTHS1,位于J17的ttyTHS2和给蓝牙使用的ttyTHS3. ttyTHS1是控制台串口(serial console),再启动的时候会通过它打印一系 ...