目标检测论文解读7——YOLO v2】的更多相关文章

背景 YOLO v1检测效果不好,且无法应用于检测密集物体. 方法 YOLO v2是在YOLO v1的基础上,做出如下改进. (1)引入很火的Batch Normalization,提高mAP和训练速度: (2)加入了Anchor Box机制,每个grid cell5个Anchor Box: (3)自动选择Anchor Box,这是作者所作出的创新,之前Anchor Box都是人为直接规定的,显然不是很合理.作者通过K-means聚类算法,用IoU作为距离度量,生成了Anchor Box的尺度.…
背景 之前热门的目标检测方法都是two stage的,即分为region proposal和classification两个阶段,本文是对one stage方法的初次探索. 方法 首先看一下模型的网络结构,输入的原图片,经过24个卷积层提取特征,全连接层输出一个7*7*30的tensor,这个tensor里面就包含我们预测的结果了. 那么这个7*7*30的tensor包含哪些信息呢? 首先,7*7可以映射到448*448的原图片中,得到7*7个64*64的grid cell,对于原图中的每一个目…
背景 要在YOLO v2上作出改进. 方法 (1)分类器改变.从softmax loss改变为logistic loss,作用是处理符合标签,softmax loss只能用来预测只有一种类别的目标,logistic loss可以是多种类别. (2)引入多级预测机制.在三种尺度的特征图上做detection. (3)模仿了ResNet里residual block 的short cut,模型采用Darknet-53. 总结 没创新,效果好.…
Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测 论文解读 作者 | 文永亮 学校 | 哈尔滨工业大学(深圳) 研究方向 | 目标检测.GAN 推荐理由: 这是一篇发表于AAAI2019的paper,文章提出了一种R-DAD的方法来对RCNN系列的目标检测方法进行改进. 研究动机: 目前主流的目标检测算法分为1 stage和2 stage的,而2 stage的目标检测方法以Fa…
背景 在2012 Imagenet LSVRC比赛中,Alexnet以15.3%的top-5 错误率轻松拔得头筹(第二名top-5错误率为26.2%).由此,ConvNet的潜力受到广泛认可,一炮而红.既然convNet在图像分类任务上能取得好成绩,是不是也能放到目标检测任务上呢.本文就是用convNet解决目标检测任务的首次探索.在PASCAL VOC 2010上的mAP达到了53.7%. 方法 模型一共分为三个模块. (1)region proposals(区域推荐)).在一张整图上面产生很…
背景 SSD算法在检测小目标时精度并不高,本文是在在SSD的基础上做出一些改进,引入卷积层,能综合上下文信息,提高模型性能. 理解 Q1:DSSD和SSD的区别有哪些? (1)SSD是一层一层下采样,然后分别在这些feature map上进行预测:而DSSD则是在后面加入了很多的Deconvolution Module,通过逆卷积算法feature map上采样,然后与前面的feature map通过点积产生新的feature map,包含上下文的信息. (2)除了逆卷积操作,DSSD还引入了新…
引言 对于小目标通常需要用到多尺度检测,作者提出的FPN是一种快速且效果好的多尺度检测方法. 方法 a,b,c是之前的方法,其中a,c用到了多尺度检测的思想,但他们都存在明显的缺点. a方法:把每图片都进行缩放,在进行检测,这种做法最大的问题是太慢,因为要多花好几倍的时间: c方法:其实就是SSD论文中用到的方法,feature map一层层下采样,然后对不同scale的feature map之间进行预测,这种做法最大的缺点就是底层feature map分辨率高但是语义信息弱,分类不准: 而作者…
背景 R-CNN系列算法检测速度不够快,YOLO v1检测准确率较低,而且无法检测到密集目标. 方法 SSD算法跟YOLO类似,都属于one stage的算法,即通过回归算法直接从原图得到预测结果,为了解决YOLO v1检测效果一般的问题,SSD提出了多尺度检测的方法以及在不同尺度上特征点的default box. 1.多尺度检测模型 如图所示是SSD模型跟YOLO模型的对比,我们可以看到最主要的区别是: YOLO是在Conv层后面加上两个FC层,得到7*7*30的tensor用来回归预测:而S…
引言 这篇论文深刻分析了one-stage的模型精度比two-stage更差的原因,并提出Focal Loss提高精度. 思路 在论文中,作者指出,造成one-stage模型精度差的原因主要是:正负样本极不平衡.一张图片只有那么几个目标,但是用来分类的Anchor Box却能达到几千个,大量的样本都是负样本,而且大多数负样本都是容易分类的简单样本,这些简单样本的loss虽然低但是凭借着数量众多,能对loss有很大的贡献.因此分类器只用无脑判负也能达到不错的效果. 作者提出的Focal Loss能…
背景 基于ResNet 101的Faster RCNN速度很慢,本文通过提出Position-sensitive score maps(位置敏感分值图)来给模型加速. 方法 首先分析一下,为什么基于ResNet 101的Faster R-CNN很慢? 其实主要的原因是ROI Pooling层后面的Conv5无法共享计算,每一个RoI都要计算一次,一次检测RoI可能有几百个,计算量巨大. 我们已经知道Conv层的作用是提取特征,那为什么不跟把Conv5放到RoI Pooling前面,让RoI映射到…