目标检测论文解读11——Mask R-CNN】的更多相关文章

目的 让Faster R-CNN能做实例分割的任务. 方法 模型的结构图如下. 与Faster R-CNN相比,主要有两点变化. (1) 用RoI Align替代RoI Pool. 首先回顾一下RoI Pool,流程为:将RPN产生的原图侯选框映射到CNNs输出的feature map上,显然原图比feature map大,所以映射后的像素坐标可能会有小数,这里的做法是用近邻插值法,通俗讲,坐标四舍五入. 而这种做法肯定会带来一些空间位置上的小误差,而我们后面的实例分割是逐像素的,接受不了这种误…
Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测 论文解读 作者 | 文永亮 学校 | 哈尔滨工业大学(深圳) 研究方向 | 目标检测.GAN 推荐理由: 这是一篇发表于AAAI2019的paper,文章提出了一种R-DAD的方法来对RCNN系列的目标检测方法进行改进. 研究动机: 目前主流的目标检测算法分为1 stage和2 stage的,而2 stage的目标检测方法以Fa…
背景 deep ConvNet兴起,VGG16应用在图像分类任务上表现良好,本文用VGG16来解决检测任务.SPP NET存在CNN层不能fine tuning的缺点,且之前的方法训练都是分为多个阶段,特征提取+SVM分类+边框回归,这些问题在Fast R-CNN上都得到了解决. 方法 网络模型采用VGG16结构,跟SPP NET相比有如下改进. ROI pooling 将最后的max pooling层换成RoI pooling层,可以认为是SPP NET的特殊情况,只有一层金字塔,featur…
背景 之前热门的目标检测方法都是two stage的,即分为region proposal和classification两个阶段,本文是对one stage方法的初次探索. 方法 首先看一下模型的网络结构,输入的原图片,经过24个卷积层提取特征,全连接层输出一个7*7*30的tensor,这个tensor里面就包含我们预测的结果了. 那么这个7*7*30的tensor包含哪些信息呢? 首先,7*7可以映射到448*448的原图片中,得到7*7个64*64的grid cell,对于原图中的每一个目…
背景 在2012 Imagenet LSVRC比赛中,Alexnet以15.3%的top-5 错误率轻松拔得头筹(第二名top-5错误率为26.2%).由此,ConvNet的潜力受到广泛认可,一炮而红.既然convNet在图像分类任务上能取得好成绩,是不是也能放到目标检测任务上呢.本文就是用convNet解决目标检测任务的首次探索.在PASCAL VOC 2010上的mAP达到了53.7%. 方法 模型一共分为三个模块. (1)region proposals(区域推荐)).在一张整图上面产生很…
背景 SSD算法在检测小目标时精度并不高,本文是在在SSD的基础上做出一些改进,引入卷积层,能综合上下文信息,提高模型性能. 理解 Q1:DSSD和SSD的区别有哪些? (1)SSD是一层一层下采样,然后分别在这些feature map上进行预测:而DSSD则是在后面加入了很多的Deconvolution Module,通过逆卷积算法feature map上采样,然后与前面的feature map通过点积产生新的feature map,包含上下文的信息. (2)除了逆卷积操作,DSSD还引入了新…
引言 对于小目标通常需要用到多尺度检测,作者提出的FPN是一种快速且效果好的多尺度检测方法. 方法 a,b,c是之前的方法,其中a,c用到了多尺度检测的思想,但他们都存在明显的缺点. a方法:把每图片都进行缩放,在进行检测,这种做法最大的问题是太慢,因为要多花好几倍的时间: c方法:其实就是SSD论文中用到的方法,feature map一层层下采样,然后对不同scale的feature map之间进行预测,这种做法最大的缺点就是底层feature map分辨率高但是语义信息弱,分类不准: 而作者…
引言 这篇论文深刻分析了one-stage的模型精度比two-stage更差的原因,并提出Focal Loss提高精度. 思路 在论文中,作者指出,造成one-stage模型精度差的原因主要是:正负样本极不平衡.一张图片只有那么几个目标,但是用来分类的Anchor Box却能达到几千个,大量的样本都是负样本,而且大多数负样本都是容易分类的简单样本,这些简单样本的loss虽然低但是凭借着数量众多,能对loss有很大的贡献.因此分类器只用无脑判负也能达到不错的效果. 作者提出的Focal Loss能…
背景 基于ResNet 101的Faster RCNN速度很慢,本文通过提出Position-sensitive score maps(位置敏感分值图)来给模型加速. 方法 首先分析一下,为什么基于ResNet 101的Faster R-CNN很慢? 其实主要的原因是ROI Pooling层后面的Conv5无法共享计算,每一个RoI都要计算一次,一次检测RoI可能有几百个,计算量巨大. 我们已经知道Conv层的作用是提取特征,那为什么不跟把Conv5放到RoI Pooling前面,让RoI映射到…
背景 R-CNN系列算法检测速度不够快,YOLO v1检测准确率较低,而且无法检测到密集目标. 方法 SSD算法跟YOLO类似,都属于one stage的算法,即通过回归算法直接从原图得到预测结果,为了解决YOLO v1检测效果一般的问题,SSD提出了多尺度检测的方法以及在不同尺度上特征点的default box. 1.多尺度检测模型 如图所示是SSD模型跟YOLO模型的对比,我们可以看到最主要的区别是: YOLO是在Conv层后面加上两个FC层,得到7*7*30的tensor用来回归预测:而S…