论文原址:https://arxiv.org/abs/1904.01355 github: tinyurl.com/FCOSv1 摘要 本文提出了一个基于全卷积的单阶段检测网络,类似于语义分割,针对每个像素进行预测.RetinaNet,SSD,YOLOv3,Faster R-CNN都依赖于预定义的anchor boxes.本文的FCOX是anchor free ,proposal free类型的检测器.将预定义的anchors进行移除,进而减少了大量的计算以及内存占用,同时,anchor中的超参…
论文链接:https://arxiv.org/abs/1904.08189 github:https://github.com/Duankaiwen/CenterNet 摘要 目标检测中,基于关键点的方法经常出现大量不正确的边界框,主要是由于缺乏对相关剪裁区域的额外监督造成的.本文提出一种有效的方法,以最小的资源探索剪裁区域的视觉模式.本文提出的CenterNet是一个单阶段的关键点检测模型.CenterNet通过检测每个目标物看作是一个三个关键点,而不是一对关键点,这样做同时提高了准确率及召回…
论文源址:https://arxiv.org/abs/1506.01497 tensorflow代码:https://github.com/endernewton/tf-faster-rcnn 室友对Faster R-CNN的解读:https://www.cnblogs.com/pursuiting/ 摘要 目标检测依赖于区域proposals算法对目标的位置进行预测.SPPnet和Fast R-CNN已经减少了检测网络的运行时间.然而proposals的计算仍是一个重要的瓶颈.本文提出了一个R…
论文原址:https://arxiv.org/pdf/1811.05181.pdf github:https://github.com/libuyu/GHM_Detection 摘要 尽管单阶段的检测器速度较快,但在训练时存在以下几点不足,正负样本之间的巨大差距,同样,easy,hard样本的巨大差距.本文从梯度角度出发,指出了上面两个不足带来的影响.然后,作者进一步提出了梯度协调机制(GHM)用于避开上面的不足.GHM的思想可以嵌入到用于分类的交叉熵损失或者用于回归的Smooth-L1损失中,…
论文源址:https://arxiv.org/abs/1612.03144 代码:https://github.com/jwyang/fpn.pytorch 摘要 特征金字塔是用于不同尺寸目标检测中的基本组件.但由于金字塔表征的特征需要消耗较多的内存及计算资源,因此,深度学习尽量避免使用金字塔特征.本文利用深度卷积网络中自带的多尺寸信息构建特征金字塔.本文搭建了具有横向连接的自上而下的结构FPN,从而在所有尺寸上构建高层次的语义特征.本文在Faster R-CNN的基础结构上增加了FPN结构,并…
尊重原创,转载请注明:http://blog.csdn.net/tangwei2014 这是继RCNN,fast-RCNN 和 faster-RCNN之后,rbg(Ross Girshick)大神挂名的又一大作,起了一个很娱乐化的名字:YOLO.  虽然目前版本还有一些硬伤,但是解决了目前基于DL检测中一个大痛点,就是速度问题.  其增强版本GPU中能跑45fps,简化版本155fps. 论文下载:http://arxiv.org/abs/1506.02640  代码下载:https://git…
论文原址:https://arxiv.org/abs/1901.08043 github: https://github.com/xingyizhou/ExtremeNet 摘要 本文利用一个关键点检测网络来检测目标物的最左边,最右边,顶部,底部及目标物中心五个点.如果这几个点在几何空间上对齐,则生成一个边界框.目标检测进而演变为基于外形的关键点检测问题,不需要进行区域分类及复杂的特征学习. 介绍 Top-Down方法占据目标检测中的主要地位,一些流行的目标检测算法通过直接裁剪区域或者特征,或者…
论文原址:https://arxiv.org/pdf/1902.09630.pdf github:https://github.com/generalized-iou 摘要 在目标检测的评测体系中,IoU是最流行的评价准则.然而,在对边界框的参数进行优化时,常用到距离损失,而按照IOU的标准则是取其最大值,二者之间是有一定差别的.对一个标准进行优化的目标函数是其标准本身.比如,对于2D的坐标对齐的边界框,可以直接使用IoU作为回归损失.然而,该方法存在一个弊端,就是当两个边界框不发生重叠时,Io…
论文原址:https://arxiv.org/abs/1904.01169 摘要 视觉任务中多尺寸的特征表示十分重要,作为backbone的CNN的对尺寸表征能力越强,性能提升越大.目前,大多数多尺寸的表示方法是layer-wise的.本文提出的Res2Net通过在单一残差块中对残差连接进行分级,进而可以达到细粒度层级的多尺度表征,同时,提高了网络每层的感受野大小.该Res2Net结构可以嵌入到其他网络模型中. 介绍 在自然场景中,视觉模式经常表现多尺寸特征.如下图所示,(1)一张图片中可能会存…
论文原址:https://arxiv.org/pdf/1904.02701.pdf github:https://github.com/OceanPang/Libra_R-CNN 摘要 相比模型的结构,关注度较少的训练过程对于检测器的成功检测也是十分重要的.本文发现,检测性能主要受限于训练时,sample level,feature level,objective level的不平衡问题.为此,提出了Libra R-CNN,用于对目标检测中平衡学习的简单有效的框架.主要包含三个创新点:(1)Io…