博客：blog.shinelee.me | 博客园 | CSDN

写在前面

paper：https://arxiv.org/abs/1809.02165
github：https://github.com/hoya012/deep_learning_object_detection，A paper list of object detection using deep learning

这篇综述对深度学习目标检测2014至201901取得的进展进行了总结，包括：

More than 250 key contributions are included in this survey, covering many aspects of generic object detection research: leading detection frameworks and fundamental subprob-lems including object feature representation, object proposal generation, context information modeling and training strategies; evaluation issues, specifically benchmark datasets, evaluation metrics, and state of the art performance.

本文的主要目的在于摘录paper中的一些重要图表和结论，作为系统学习的索引，不做详细的展开。

下面两张图来自github，分别为paper list和performance table，红色为作者认为必读的paper。

目标检测任务与挑战

目标检测任务的输入是一张图像，输出是图像中的物体位置和类别，如下图所示，位置可通过Bounding Box描述，也可描述为像素的集合。

为了确定图片中物体的位置和类别，要面临很多挑战，一个好的检测器要做到定位准确、分类准确还要效率高，需要对光照、形变、尺度、视角、尺寸、姿态、遮挡、模糊、噪声等情况鲁棒，需要能容忍可能存在的较大的类内差异，又能区分开较小的类间差异，同时还要保证高效。

目标检测方法汇总

在2012年前，目标检测方法主要是人工特征工程+分类器，2012年后主要是基于DCNN的方法，如下图所示：

目标检测的框架可以分成2类：

Two stage detection framework：含region proposal，先获取ROI，然后对ROI进行识别和回归bounding box，以RCNN系列方法为代表。
One stage detection framework：不含region proposal，将全图grid化，对每个grid进行识别和回归，以YOLO系列方法为代表。

Pipeline对比与演化如下：

主干网络、检测框架设计、大规模高质量的数据集是决定检测性能的3个最重要的因素，决定了学到特征的好坏以及特征使用的好坏。

基础子问题

这一节谈论的重点包括：基于DCNN的特征表示、候选区生成、上下文信息、训练策略等。

基于DCNN的特征表示

主干网络（network backbone）

ILSVRC（ImageNet Large Scale Visual Recognition Competition）极大促进了DCNN architecture的改进，在计算机视觉的各种任务中，往往将这些经典网络作为主干网络（backbone），再在其上做各种文章，常用在目标检测任务中的DCNN architectures如下：

Methods For Improving Object Representation

物体在图像中的尺寸是未知的，图片中的不同物体尺寸也可能是不同的，而DCNN越深层的感受野越大，因此只在某一层上进行预测显然是难以达到最优的，一个自然的想法是利用不同层提取到的信息进行预测，称之为multiscale object detection，可分成3类：

Detecting with combined features of multiple CNN layers
Detecting at multiple CNN layers;
Combinations of the above two methods

直接看图比较直观：

尝试对几何变形进行建模也是改善Object Representation的一个方向，方法包括结合Deformable Part based Models (DPMs)的方法、Deformable Convolutional Networks (DCN)方法等。

Context Modeling

上下文信息可以分为3类：

Semantic context: The likelihood of an object to be found in some scenes but not in others;
Spatial context: The likelihood of finding an object in some position and not others with respect to other objects in the scene;
Scale context: Objects have a limited set of sizes relative to other objects in the scene.

DCNN通过学习不同抽象层级的特征可能已经隐式地使用了contextual information，因此目前的state-of-art目标检测方法并没有显式地利用contextual information，但近来也有一些显式利用contextual information的DCNN方法，可分为2类：Global context和Local context。

感觉可以在某种程度上看成是数据层面的集成学习。

Detection Proposal Methods

Two stage detection framework需要生成ROI。

生成ROI的方法，可以分为Bounding Box Proposal Methods和Object Segment Proposal Methods，前者回归出Bounding Box来描述ROI，后者通过分割得到像素集合来描述ROI。

Other Special Issues

通过data augmentation tricks（数据增广）可以得到更鲁棒的特征表示，可以看成是数据层面上的集成学习，考虑到物体尺度可大可小的问题，scaling是使用最多的数据增广方法。

Datasets and Performance Evaluation

以上。

论文学习-深度学习目标检测2014至201901综述-Deep Learning for Generic Object Detection A Survey的更多相关文章

zz深度学习目标检测2014至201901综述
论文学习-深度学习目标检测2014至201901综述-Deep Learning for Generic Object Detection A Survey 发表于 2019-02-14 | 更新 ...
目标检测（一）RCNN--Rich feature hierarchies for accurate object detection and semantic segmentation(v5)
作者:Ross Girshick,Jeff Donahue,Trevor Darrell,Jitendra Malik 该论文提出了一种简单且可扩展的检测算法,在VOC2012数据集上取得的mAP比当 ...
目标检测 | 经典算法 Cascade R-CNN: Delving into High Quality Object Detection
作者从detector的overfitting at training/quality mismatch at inference问题入手,提出了基于multi-stage的Cascade R-CNN ...
论文翻译——R-CNN（目标检测开山之作）
R-CNN论文翻译 <Rich feature hierarchies for accurate object detection and semantic segmentation> 用 ...
CVPR 2020几篇论文内容点评：目标检测跟踪，人脸表情识别，姿态估计，实例分割等
CVPR 2020几篇论文内容点评:目标检测跟踪,人脸表情识别,姿态估计,实例分割等 CVPR 2020中选论文放榜后,最新开源项目合集也来了. 本届CPVR共接收6656篇论文,中选1470篇,&q ...
AI学习---深度学习&TensorFlow安装
深度学习深度学习学习目标: 1. TensorFlow框架的使用 2. 数据读取(解决大数据下的IO操作) + 神经网络基础 3. 卷积神经网络的学习 + 验证码识别的案例机器学习与深度学 ...
使用腾讯云 GPU 学习深度学习系列之二：Tensorflow 简明原理【转】
转自:https://www.qcloud.com/community/article/598765?fromSource=gwzcw.117333.117333.117333 这是<使用腾讯云 ...
CVPR2020论文介绍： 3D 目标检测高效算法
CVPR2020论文介绍: 3D 目标检测高效算法 CVPR 2020: Structure Aware Single-Stage 3D Object Detection from Point Clo ...
我在 B 站学习深度学习（生动形象，跃然纸上）
我在 B 站学习深度学习(生动形象,跃然纸上) 视频地址:https://www.bilibili.com/video/av16577449/ tensorflow123 http://tensorf ...

随机推荐

java原子操作的实现原理--转载
原文地址:http://www.infoq.com/cn/articles/atomic-operation 1. 引言原子(atom)本意是“不能被进一步分割的最小粒子”,而原子操作(atomic ...
Java多线程-线程的同步与锁【转】
出处:http://www.cnblogs.com/linjiqin/p/3208843.html 一.同步问题提出线程的同步是为了防止多个线程访问一个数据对象时,对数据造成的破坏. 例如:两个线程 ...
Spring Boot 发送邮件
需求最近因为业务的变更,需要对老用户进行发送邮件处理.目前市面上也有很多代发邮件的接口,可以接入.由于量不是特别大,放弃了这个途径.改用我们自己通过 smtp 发送邮件来处理. 技术选择 Java ...
一个基于原生JavaScript开发的、轻量的验证码生成插件
Vcode.js 一个基于原生JavaScript开发的.轻量的验证码生成插件 V: 1.0.0 DEMO:https://jofunliang.github.io/Vcode.js/example. ...
windows10系统终极净化方法
去年购入一台华硕FL8000U,性能很是不错,但是硬件只能兼容win10,不支持win7(linux倒是可以,但是始终用不顺手),win10里面杂七杂八的确实很多,本人重度强迫症+洁癖+极简主义,所以 ...
python字符串操作实方法大合集
python字符串操作实方法大合集,包括了几乎所有常用的python字符串操作,如字符串的替换.删除.截取.复制.连接.比较.查找.分割等,需要的朋友可以参考下: #1.去空格及特殊符号 s.st ...
（二）Linux下的crontab定时执行任务命令详解
在LINUX中,周期执行的任务一般由cron这个守护进程来处理[ps -ef|grep cron].cron读取一个或多个配置文件,这些配置文件中包含了命令行及其调用时间.cron的配置文件称为&qu ...
Git协作流程
Git 作为一个源码管理系统,不可避免涉及到多人协作. 协作必须有一个规范的流程,让大家有效地合作,使得项目井井有条地发展下去."协作流程"在英语里,叫做"workflo ...
JS（总结）
基础 Javascript是一种弱类型语言,它分别有什么优点和缺点弱类型语言:简单好用,更灵活多变.但是会牺牲性能,比如一些隐含的类型转换强类型语言:类型转换的时候非常严格,,强类型语言是直接操纵 ...
苹果通知推送服务(APNS)一些关键特性摘要
http://ramosli.iteye.com/blog/1940843 前段时间,仔细研究了APNS的文档,把一些关键的地方记录了下来,弄懂这些对于理解APNS的规则,至关重要. 1. If AP ...

论文学习-深度学习目标检测2014至201901综述-Deep Learning for Generic Object Detection A Survey