目标检测论文解读13——FPN】的更多相关文章

引言 对于小目标通常需要用到多尺度检测,作者提出的FPN是一种快速且效果好的多尺度检测方法. 方法 a,b,c是之前的方法,其中a,c用到了多尺度检测的思想,但他们都存在明显的缺点. a方法:把每图片都进行缩放,在进行检测,这种做法最大的问题是太慢,因为要多花好几倍的时间: c方法:其实就是SSD论文中用到的方法,feature map一层层下采样,然后对不同scale的feature map之间进行预测,这种做法最大的缺点就是底层feature map分辨率高但是语义信息弱,分类不准: 而作者…
Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测 论文解读 作者 | 文永亮 学校 | 哈尔滨工业大学(深圳) 研究方向 | 目标检测.GAN 推荐理由: 这是一篇发表于AAAI2019的paper,文章提出了一种R-DAD的方法来对RCNN系列的目标检测方法进行改进. 研究动机: 目前主流的目标检测算法分为1 stage和2 stage的,而2 stage的目标检测方法以Fa…
背景 之前热门的目标检测方法都是two stage的,即分为region proposal和classification两个阶段,本文是对one stage方法的初次探索. 方法 首先看一下模型的网络结构,输入的原图片,经过24个卷积层提取特征,全连接层输出一个7*7*30的tensor,这个tensor里面就包含我们预测的结果了. 那么这个7*7*30的tensor包含哪些信息呢? 首先,7*7可以映射到448*448的原图片中,得到7*7个64*64的grid cell,对于原图中的每一个目…
背景 在2012 Imagenet LSVRC比赛中,Alexnet以15.3%的top-5 错误率轻松拔得头筹(第二名top-5错误率为26.2%).由此,ConvNet的潜力受到广泛认可,一炮而红.既然convNet在图像分类任务上能取得好成绩,是不是也能放到目标检测任务上呢.本文就是用convNet解决目标检测任务的首次探索.在PASCAL VOC 2010上的mAP达到了53.7%. 方法 模型一共分为三个模块. (1)region proposals(区域推荐)).在一张整图上面产生很…
背景 SSD算法在检测小目标时精度并不高,本文是在在SSD的基础上做出一些改进,引入卷积层,能综合上下文信息,提高模型性能. 理解 Q1:DSSD和SSD的区别有哪些? (1)SSD是一层一层下采样,然后分别在这些feature map上进行预测:而DSSD则是在后面加入了很多的Deconvolution Module,通过逆卷积算法feature map上采样,然后与前面的feature map通过点积产生新的feature map,包含上下文的信息. (2)除了逆卷积操作,DSSD还引入了新…
引言 这篇论文深刻分析了one-stage的模型精度比two-stage更差的原因,并提出Focal Loss提高精度. 思路 在论文中,作者指出,造成one-stage模型精度差的原因主要是:正负样本极不平衡.一张图片只有那么几个目标,但是用来分类的Anchor Box却能达到几千个,大量的样本都是负样本,而且大多数负样本都是容易分类的简单样本,这些简单样本的loss虽然低但是凭借着数量众多,能对loss有很大的贡献.因此分类器只用无脑判负也能达到不错的效果. 作者提出的Focal Loss能…
背景 基于ResNet 101的Faster RCNN速度很慢,本文通过提出Position-sensitive score maps(位置敏感分值图)来给模型加速. 方法 首先分析一下,为什么基于ResNet 101的Faster R-CNN很慢? 其实主要的原因是ROI Pooling层后面的Conv5无法共享计算,每一个RoI都要计算一次,一次检测RoI可能有几百个,计算量巨大. 我们已经知道Conv层的作用是提取特征,那为什么不跟把Conv5放到RoI Pooling前面,让RoI映射到…
背景 R-CNN系列算法检测速度不够快,YOLO v1检测准确率较低,而且无法检测到密集目标. 方法 SSD算法跟YOLO类似,都属于one stage的算法,即通过回归算法直接从原图得到预测结果,为了解决YOLO v1检测效果一般的问题,SSD提出了多尺度检测的方法以及在不同尺度上特征点的default box. 1.多尺度检测模型 如图所示是SSD模型跟YOLO模型的对比,我们可以看到最主要的区别是: YOLO是在Conv层后面加上两个FC层,得到7*7*30的tensor用来回归预测:而S…
背景 Fast R-CNN中的region proposal阶段所采用的SS算法成为了检测网络的速度瓶颈,本文是在Fast R-CNN基础上采用RPN(Region Proposal Networks)代替SS. 方法 从图中我们可以看到,RPN的输入为最后一个Conv层输出的feature map,输出为一系列ROI,后面的过程就跟Fast R-CNN一样了. 所以在这里我们只需要了解RPN是如何工作的. 论文里有这样一张图,讲解了RPN的过程(注意后面的k不是千,而是代表每个特征点要预测的a…
背景 deep ConvNet兴起,VGG16应用在图像分类任务上表现良好,本文用VGG16来解决检测任务.SPP NET存在CNN层不能fine tuning的缺点,且之前的方法训练都是分为多个阶段,特征提取+SVM分类+边框回归,这些问题在Fast R-CNN上都得到了解决. 方法 网络模型采用VGG16结构,跟SPP NET相比有如下改进. ROI pooling 将最后的max pooling层换成RoI pooling层,可以认为是SPP NET的特殊情况,只有一层金字塔,featur…
目的 让Faster R-CNN能做实例分割的任务. 方法 模型的结构图如下. 与Faster R-CNN相比,主要有两点变化. (1) 用RoI Align替代RoI Pool. 首先回顾一下RoI Pool,流程为:将RPN产生的原图侯选框映射到CNNs输出的feature map上,显然原图比feature map大,所以映射后的像素坐标可能会有小数,这里的做法是用近邻插值法,通俗讲,坐标四舍五入. 而这种做法肯定会带来一些空间位置上的小误差,而我们后面的实例分割是逐像素的,接受不了这种误…
背景 要在YOLO v2上作出改进. 方法 (1)分类器改变.从softmax loss改变为logistic loss,作用是处理符合标签,softmax loss只能用来预测只有一种类别的目标,logistic loss可以是多种类别. (2)引入多级预测机制.在三种尺度的特征图上做detection. (3)模仿了ResNet里residual block 的short cut,模型采用Darknet-53. 总结 没创新,效果好.…
背景 YOLO v1检测效果不好,且无法应用于检测密集物体. 方法 YOLO v2是在YOLO v1的基础上,做出如下改进. (1)引入很火的Batch Normalization,提高mAP和训练速度: (2)加入了Anchor Box机制,每个grid cell5个Anchor Box: (3)自动选择Anchor Box,这是作者所作出的创新,之前Anchor Box都是人为直接规定的,显然不是很合理.作者通过K-means聚类算法,用IoU作为距离度量,生成了Anchor Box的尺度.…
CVPR2019:无人驾驶3D目标检测论文点评 重读CVPR2019的文章,现在对以下文章进行点评. Stereo R-CNN based 3D Object Detection for Autonomous Driving 1. introduction 本文提出了完全自动驾驶3D目标检测方法,包括3D图像检测疏密度,语义和几何信息.这个方法命名为Stereo R-CNN,将Faster R-CNN推广到3D图像输入信息,检测和关联左右两部分图像.通过在立体区域建议网络stereo Regio…
CVPR2019目标检测论文看点:并域上的广义交 Generalized Intersection over Union Generalized Intersection over Union: A Metric and A Loss for BoundingBox Regression 并域上的广义交Intersection over Union(IOU)是目标检测标准最流行的评估手段.可是,使用boundingbox回归参数方法计算距离误差和最大化度量值优化之间有一个缺陷gap.度量优化目标…
作者 | 文永亮 研究方向 | 目标检测.GAN 研究动机 ​ 这是一篇发表于CVPR2019的关于显著性目标检测的paper,在U型结构的特征网络中,高层富含语义特征捕获的位置信息在自底向上的传播过程中可能会逐渐被稀释,另外卷积神经网络的感受野大小与深度是不成正比的,目前很多流行方法都是引入Attention(注意力机制),但是本文是基于U型结构的特征网络研究池化对显著性检测的改进,具体步骤是引入了两个模块GGM(Global Guidance Module,全局引导模块)和FAM(Featu…
题目:Deep Continuous Fusion for Multi-Sensor 3D Object Detection 来自:Uber: Ming Liang Note: 没有代码,主要看思想吧,毕竟是第一篇使用RGB feature maps 融合到BEV特征中: 从以下几个方面开始简述论文 Open Problems Contributions Methods Experiments My Conclusion 1> Open Problems 联合多传感器数据能获得更好的特征表示:…
论文名称:CenterNet: Keypoint Triplets for Object Detectiontection 论文链接:https://arxiv.org/abs/1904.08189 代码链接:https://github.com/Duankaiwen/CenterNet 简介 该论文是由中科院,牛津大学以及华为诺亚方舟实验室联合提出.截至目前(2019.04.19),CenterNet应该是one-stage目标检测方法中性能(精度)最好的方法. 传统的基于关键点的目标检测方法…
主题列表:juejin, github, smartblue, cyanosis, channing-cyan, fancy, hydrogen, condensed-night-purple, greenwillow, v-green, vue-pro, healer-readable 贡献主题:https://github.com/xitu/juejin-markdown-themes theme: juejin highlight: 0 轮廓检测 轮廓检测,对我这样的初学者而言,与语义分割…
今年(2017年第一季度),何凯明大神出了一篇文章,叫做fpn,全称是:feature pyramid network for object Detection,为什么发这篇文章,根据 我现在了解到的是对小目标和大目标识别率都好.为什么?我们来看下面一幅图: 此处来自:http://blog.csdn.net/u014380165/article/details/72890275 (a)图像金字塔,即将图像做成不同的scale,然后不同scale的图像生成对应的不同scale的特征.这种方法的缺…
https://blog.csdn.net/qq_21949357/article/details/80538255 这篇论文其实读起来还是比较难懂的,主要是细节部分很需要推敲,尤其是deformable的卷积如何实现的一步上,在写这篇博客之前,我也查阅了很多其他人的分享或者去github找代码,当然也不敢说完全了解了这种特殊的卷积……仅仅做一点自己的阅读心得与体会吧.这是一篇很有意义的工作,但是和深度学习很多论文一样,在读完之后内心也不免有着种种疑云. Deformable Convoluti…
有什么问题可以加作者微信讨论,cyx645016617 上千人的粉丝群已经成立,氛围超好.为大家提供一个遇到问题有可能得到答案的平台. 0 概述 论文名称:"Richer Convolutional Features for Edge Detection" 论文链接:https://openaccess.thecvf.com/content_cvpr_2017/papers/Liu_Richer_Convolutional_Features_CVPR_2017_paper.pdf 缩写…
目录 0. 论文链接 1. 概述 2. 网络结构的合理性 3. 网络结构 4. 参考链接 @ 0. 论文链接 Cascade R-CNN 1. 概述   这是CVPR 2018的一篇文章,这篇文章也为我之前读R-CNN系列困扰的一个问题提供了一个解决方案:R-CNN在fine-tuning使用IOU threshold = 0.5来防止过拟合,而在分类阶段,使用softmax因为之前0.5的设定太过宽松(loose),而导致精度下降较多,因此单独训练了一个新的SVM分类器并且更改了IOU阈值(文…
CVPR 2020几篇论文内容点评:目标检测跟踪,人脸表情识别,姿态估计,实例分割等 CVPR 2020中选论文放榜后,最新开源项目合集也来了. 本届CPVR共接收6656篇论文,中选1470篇,"中标率"只有22%,堪称十年来最难的一届. 目标检测 论文题目: Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection 本文首先指出了基于锚…
​前言  单阶段目标检测通常通过优化目标分类和定位两个子任务来实现,使用具有两个平行分支的头部,这可能会导致两个任务之间的预测出现一定程度的空间错位.本文提出了一种任务对齐的一阶段目标检测(TOOD),它以基于学习的方式显式地对齐这两个任务. TOOD在MS-CoCO上实现了51.1Ap的单模型单尺度测试.这大大超过了最近的单阶段检测器,如ATSS(47.7AP).GFL(48.2AP)和PAA(49.0AP),它们的参数和FLOPs更少. 本文来自公众号CV技术指南的论文分享系列 关注公众号C…
首发于深度学习那些事 已关注写文章   扔掉anchor!真正的CenterNet——Objects as Points论文解读 OLDPAN 不明觉厉的人工智障程序员 ​关注他 JustDoIT 等 188 人赞同了该文章 前言 anchor-free目标检测属于anchor-free系列的目标检测,相比于CornerNet做出了改进,使得检测速度和精度相比于one-stage和two-stage的框架都有不小的提高,尤其是与YOLOv3作比较,在相同速度的条件下,CenterNet的精度比Y…
谷歌大脑提出:基于NAS的目标检测模型NAS-FPN,超越Mask R-CNN 朱晓霞发表于目标检测和深度学习订阅 235 广告关闭 11.11 智慧上云 云服务器企业新用户优先购,享双11同等价格 立即抢购 在这篇文章中: 怎么搜出来? 模型怎么样? One More Thing 本文转载自量子位(QbitAI) 这是一只AI生出的小AI. 谷歌大脑的Quoc Le团队,用神经网络架构搜索 (NAS) ,发现了一个目标检测模型.长这样: △ 看不清请把手机横过来 它的准确率和速度都超过了大前辈…
这是一只AI生出的小AI. 谷歌大脑的Quoc Le团队,用神经网络架构搜索 (NAS) ,发现了一个目标检测模型.长这样: △ 看不清请把手机横过来 它的准确率和速度都超过了大前辈Mask-RCNN:也超过了另外两只行业精英:FPN和SSD. 模型叫做NAS-FPN.大佬Quoc Le说,它的长相完全在想象之外,十分前卫: △ 喜讯发布一日,已收获600颗心 AI的脑洞果然和人类不一样.对比一下,目标检测界的传统方法FPN (特征金字塔网络) 长这样: 谷歌大脑说,虽然网络架构搜索 (NAS)…
1999:SIFT 2001:Cascades 2003:Bag of Words 2005:HOG 2006:SPM/SURF/Region Covariance 2007:PASCAL VOC 2008:DPM/Efficient Subwindow Search 2009:HOG-LBP/ImageNet 2010:Improved FV 2011:Selective Search 2012:DCNN AlexNet 2013:OverFeat 2014:MS COCO/RCNN 2015…
R-CNN(Region-based CNN) motivation:之前的视觉任务大多数考虑使用SIFT和HOG特征,而近年来CNN和ImageNet的出现使得图像分类问题取得重大突破,那么这方面的成功能否迁移到PASCAL VOC的目标检测任务上呢?基于这个问题,论文提出了R-CNN. 基本步骤:如下图所示,第一步输入图像.第二步使用生成region proposals的方法(有很多,论文使用的是seletivce search,ImageNet2013检测任务的冠军UVA也使用了该算法)提…