谈一谈深度学习之semantic Segmentation

　　上一次发博客已经是9月份的事了....这段时间公司的事实在是多，有写博客的时间都拿去看paper了..正好春节回来写点东西，也正好对这段时间做一个总结。

　　首先当然还是好好说点这段时间的主要工作：语义分割。semantic segmentation 应该是DL这几年快速发展的最重要的领域之一了，但可惜的事，在这方面大家走的并不是很远，还是有很多值得改进的地方，这当然是个很好的事情，特别是我这种想发paper弱渣.....

　　语义分割做的是什么事呢？就是给你一张图，你要对其中的每个pixel做分类，例如把所有的人都涂成红色，车都涂成蓝色。这是在机器人领域和自动驾驶中都非常重要的一步，因为我们开始让电脑真正的开始认识这个世界了。如下图所示：

　　semantic segmentation的转折点是从long的那那篇FCN开始的，之前的方法大多是用PGM建模的方法来做，原理都很清楚，但效果就是不好，因为难以解决的问题太多了。等DL大火之后，果然还是DL大法好，FCN这篇文章我之前是写过笔记的，那时候还比较年轻，现在再好好说一下。

　　这篇文章提出来的全卷积的概念并不新鲜，也无怪乎lecun再FCN获得CVPR的best paper后吐槽了一发，但个人觉得现在DL领域，关键的不是谁提出了什么，而是谁做出了什么，谁做的更好，毕竟效果好才是王道。回到FCN，他的思路很简单，VGG最后的全联接层使得我们的输入只能是固定的，这个很不好，所以就用全卷积层来代替它，这样就可以任意输入了，全卷积层这里有个很多人都有的概念的疑惑，那就是为什么会有人说1*1的卷积就等价于全连接层呢？（而且还是lecun说的...）这事我也纠结过，我们很简单的理解，和全连接层等价的肯定是kernel和feature map一样大的卷积层，但lecun这么说是有语境的...因为在做全连接层之前，我们要把图像拉成一列，如1*1*4096这种，这样对他做1*1的卷积就等价于全连接层了...也算是我一个无聊的发现...

　　说说FCN的创新点和问题，最大的创新点就是skip connection了，这个trick到现在都是很不错的想法，不同level的feature map所提供的信息是不同的，所以在最后分类的时候都可以用到他们，semantic segmentation一直有一个trade-off，就是物体的边缘和物体整体的分类的正确性，high-level的feature能提供更细节的表现，low-level的feature侧重于于很大一块区域的准确性，传统解决这个问题的方法一般是两种：1.multi-scale的input。2.skip connection。　　这方面最近有个叫refinenet的paper做的挺不错的，它用restnet的思想将网络分为两条路，一个负责location，一个负责refine，有兴趣可以去看看。回到FCN的问题，也是我最想吐槽的一点....VGG的model时downsample 32倍的，所以FCN使用了原来classification一样的模型，所以在经过最后7*7点卷积之后，feature map就只有1*1点大小了....也就是说我们要从1*1点feature map上恢复到原图，虽然说它到channel很多，但毫无疑问，它提供的信息时严重不足的，这也无怪乎他得用skip connection了..这里要谈一谈downsample的问题，downsample太多的话会丢失原图的很多信息，毕竟我们是做pixel级别的分类，所以根据我的经验，一般是8倍或者16倍左右...

　　现在做semantatic segmentation 主要还是用的deeplab那一套，接下来我准备好好讲一下deeplab这一套方法...

　　deeplab那篇paper很推荐大家去看一下，他应该基本代表了现在semantic segmentation的state of art的流程了，我分几点说一下吧：

一、encoder层：

　　encoder层我的理解是把原图downsample的步骤，一般来说这一步使用的网络是和分类使用的一致的，分类的网络性能越强，最后大效果也就越好，所以现在普遍使用的是resnet（152），这里需要注意的问题就是，传统的classification下采样的倍数太大了，不利于分割，但是我们又不能不用pretrain-model，因为用了imagenet或者COCO的pretrain model，结果一定会涨。。而且收敛会快很多。这里通用的解决方法是用hole算法，其实说白了，就是使用dilated convlution，在卷积的时候，不是对一块连续的区域卷积，而是跳跃式的，如下图所示：

　　这样做的话有两个好处：

　　　　　　1.pretrain model可以用了，在需要downsample的地方，把所有的卷积变为一个dilation 2的卷积。

　　　　　　2.可以任意的提高感受野了，只要增加dilation即可，当然，有机会可以说一下，理论上的感受野不代表实际的感受野，因为会有很多的重合，所以理论感受野的中间会对最后的结果影响很大，而边缘地方影响很小，最近有篇paper也提到了这点，有时间放上链接吧。。。PS：因此在未来recepitive filed的研究上，我觉得好好解决这个问题是一个不错的思路。

二、decoder层：

　　和encoder层对应的自然就是decoder层，这个也很好理解，我们要对pixel做分类，自然就要把图像upsample到原图的大小（或者一半，然后再做biliner upsample），upsample的方法有几类，根据我的经验....都差不了多少，卷积+biliear或者卷积+反卷积或者卷积+unpooling，最后一个在deconvlution那篇paper出现的方法一度让我以为是通用的方法，直到发现大家开始抛弃pooling的downsample方法以后...不用pooling下采样很好理解，毕竟我们是做pixel级别的分类，所以还是用可学习的下采样，上采样的比较好。

　　另外，decoder层需要注意的事，实际上它并不需要和encoder层一样大，deconvlution那篇paper提出的对称结构确实优雅而且看起来就有理有据，但实际上并不是需要这么做的，enet的那篇paper对此做过说明，简单的理解就是：decoder实际上就是对feature map做一个upsample的refine，这个时候网络已经学习到了需要的东西了，毕竟我们并不是要去做一个autoencoder。。。

三、post-processing 后处理

　　后处理这个东西，其实有点小尴尬，作为刷榜的不二神器，他有两个问题：1.不符合现在很多人对end-to-end的迷之追求。2.太慢了，正常使用的dense crf会比神经网络慢很多，最后的实用场景基本不可能使用。

　　dense crf的调参也是我不能承受之痛...直到用了同事grid search的暴力调参大法，才结束我那段黑暗的日子....

　　不扯了，简单的说一下常见的后处理方法-CRF吧，crf作为经典的一个图模型，本来是semantic segmentation的主要方法，直到DL出现...最终沦为了后处理...DL+CRF有着天然的方便，为什么这么说了，CRF的优化是要有一个初始化的state的，也就是每个pixel的unary energy，如果只有label的方法等话，一般也就是用概率和置信度来暴力指定了，但其实神经网络的最后一层一般是softmax，所以我们完全可以用softmax的输出作为CRF中unary enargy的初始化，至于pair energy，还是常规的RGB像素值和XY location值了。

　　实际上，对于CRF大家是又爱又恨的，所以后面也出现了不少的改进方法，如CRF as RNN，CNN+LSTM这些，实际效果我没试过，但估计是呵呵了，比较期待的是北大的segmodel，看他们在cityscapes上的表现，感觉CVPR2017会有一个惊喜..

总结：

　　日常总结，segmentation是一个很不错的领域，但个人感觉大家主要还是在拼trick和调参技巧，这真是最没意思的行为了。但也很好，给了我们不少想象的空间，我最近的工作就是receptive filed 、side information上做点文章...希望可以出点东西吧。加油～

谈一谈深度学习之semantic Segmentation的更多相关文章

Fully Convolutional Networks for semantic Segmentation（深度学习经典论文翻译）
摘要卷积网络在特征分层领域是非常强大的视觉模型.我们证明了经过端到端.像素到像素训练的卷积网络超过语义分割中最先进的技术.我们的核心观点是建立"全卷积"网络,输入任意尺寸,经过有 ...
深度学习：浅谈RNN、LSTM+Kreas实现与应用
主要针对RNN与LSTM的结构及其原理进行详细的介绍,了解什么是RNN,RNN的1对N.N对1的结构,什么是LSTM,以及LSTM中的三门(input.ouput.forget),后续将利用深度学习框 ...
转：浅谈深度学习(Deep Learning)的基本思想和方法
浅谈深度学习(Deep Learning)的基本思想和方法参考:http://blog.csdn.net/xianlingmao/article/details/8478562 深度学习(Deep ...
深度学习论文翻译解析（八）：Rich feature hierarchies for accurate object detection and semantic segmentation
论文标题:Rich feature hierarchies for accurate object detection and semantic segmentation 标题翻译:丰富的特征层次结构 ...
TensorFlow 2.0 深度学习实战 —— 浅谈卷积神经网络 CNN
前言上一章为大家介绍过深度学习的基础和多层感知机 MLP 的应用,本章开始将深入讲解卷积神经网络的实用场景.卷积神经网络 CNN(Convolutional Neural Networks,Conv ...
以CapsNet为例谈深度学习源码阅读
本文的参考的github工程链接:https://github.com/laubonghaudoi/CapsNet_guide_PyTorch 之前是看过一些深度学习的代码,但是没有养成良好的阅读规范 ...
浅谈深度学习中的激活函数 - The Activation Function in Deep Learning
原文地址:http://www.cnblogs.com/rgvb178/p/6055213.html版权声明:本文为博主原创文章,未经博主允许不得转载. 激活函数的作用首先,激活函数不是真的要去激活 ...
The Activation Function in Deep Learning 浅谈深度学习中的激活函数
原文地址:http://www.cnblogs.com/rgvb178/p/6055213.html 版权声明:本文为博主原创文章,未经博主允许不得转载. 激活函数的作用首先,激活函数不是真的要去激 ...
百度首席科学家 Andrew Ng谈深度学习的挑战和未来(转载)
转载:http://www.csdn.net/article/2014-07-10/2820600 人工智能被认为是下一个互联网大事件,当下,谷歌.微软.百度等知名的高科技公司争相投入资源,占领深度学 ...

随机推荐

python学习——基本数据类型
一.运算符 1.算术运算: 2.比较运算 3.赋值运算 4.逻辑运算 5.成员运算二.基本数据类型 1.数字 1.1 整形数字和长整形数字:在32位机器上,整数的位数为32位,取值范围为-2**31 ...
[POJ1785]Binary Search Heap Construction（笛卡尔树）
Code #include <cstdio> #include <algorithm> #include <cstring> #define N 500010 us ...
shell重温---基础篇（参数传递&echo命令）
经过前两天的学习,关于shell的基础算是知道的一般般啦,最起码不算是小白了(纯属意淫).今天就来点干货哈. 首先是运行shell脚本时的参数传递.脚本内获取参数的格式为$n.n代表了一个数字,例 ...
RHCE7认证学习笔记17——KickStart安装系统
一.自动化安装系统工具 1.Cobbler 另一个自动化安装工具: 2.Kickstart 二.使用kickstart自动化安装系统服务器安装的软件: 1.dhcp服务 [root@lin ...
KMP python实现
首先去 https://blog.csdn.net/starstar1992/article/details/54913261/ 这里看下思想: 然后代码实现,一定要多调试几遍方能看懂: def ge ...
ORB-SLAM 代码笔记（五）Frame类
Frame类的成员变量主要包含从摄像头获取的图像的 1. 特征点信息(关键点+描述字) 2. 尺寸不变特征所用金字塔信息,这些都定义在ORBextractor对象中 3. 词袋模型参数,用于跟踪失败情 ...
Hibernate-ORM:10.Hibernate中的分页
------------吾亦无他,唯手熟尔,谦卑若愚,好学若饥------------- 本篇博客讲述Hibernate中的分页 hibernate中的分页其实很好写,它通过操作对象的方式,来进行分页 ...
Go中的系统Signal处理
package main import "fmt" import "os" import "os/signal" import " ...
Ubuntu下使用Git_3
这里是我举得小白阶段比较困难的地方了, 当在我们向远程数据库推送数据之前,有其他用户向远程数据库推送的相同的文件的时候,服务器会拒绝我们的推送,这个时候就需要我们来整合这两个文件如图说是,现在显示的 ...
自动化测试--封装JDBCUnit
在进行测试的时候,经常需要对数据库进行操作.我们知道,通过代码与数据库交互,需要以下几步: 1.加载驱动之前有盆友问我,为什么Selenium操作浏览器的时候,非要下载浏览器驱动?为啥对数据库进行操 ...

谈一谈深度学习之semantic Segmentation

谈一谈深度学习之semantic Segmentation的更多相关文章

随机推荐

热门专题