商汤开源的mmdetection技术报告

1. 简介
2. 支持的算法
3. 框架与架构
6. 相关链接

前言：让我惊艳的几个库：

ultralytics的yolov3，在一众yolov3的pytorch版本实现算法中脱颖而出，收到开发人员的欢迎，比别的库明显好的点在于，与darknet相似度达到极高的水平，支持自定义cfg文件的加载，简直完美。

michuanhaohao的reid-strong-baseline, 这个库很严谨的将代码划分为几个部分，每个部分只做一小部分的工作，其中使用到了ignite, pytorch的一个高阶抽象库，感觉在遇到问题的时候比较难去debug。

open-mmlab的mmdetection, 这个库不仅开源，还有一个技术报告，感觉写的实在太好了。现在一搜索mmdetection全都是配置，运行相关的，这用你讲解么，人家readme上写的很详细，感觉关键还是在于他设计以及整合所有目标检测，分割的框架，这个才是关键。

这篇博客记录一下读mmdetection技术报告的关键内容以及翻译。

来源：MMDetection: Open MMLab Detection Toolbox and Benchmark

1. 简介

mmdetection是一个目标检测工具箱，包含了很多单阶段，多阶段检测和目标分割的算法。该开源库内容上包括训练，测试，模型权重下载等。mmdetection包含了使用不同方法实现的基线，可以用来作为已有算法的复现。

mmdetection主要特征有：

模块化设计，将检测或者分割任务分解成几个模块，通过模块的组合即可完成相应的任务。
开箱即用，实现了多种目标检测和分割算法，易于配置和使用。
效率很高，相比其他几个benchmark（Detectron, markrcnn-benchmark, SimpleDet）， mmdetection对GPU的占用要低一点。
SOTA, 达到了目前最先进的水平。

mmdetection中还涉及了分享他们对训练目标检测器的一些体验和实践（感谢open-mmlab）

2. 支持的算法

Single-stage Methods:
- SSD, RetinaNet, GHM, FCOS, FSAF
- 没有YOLO官方解释是说YOLOv3源码不是主流的backbone,也没有基于主流的深度学习框架，pipline与其他方法不太相同。
  
  Maybe some historical reasons. YOLO is firstly implemented with neither mainstream backbones or mainstream DL frameworks, and the pipeline is different from other methods, so it is not as popular as SSD or Faster R-CNN and their variants.
Two-stage Methods:
- Fast R-CNN, Faster R-CNN, R-FCN, Mask R-CNN, Grid R-CNN
- Mask Scoring R-CNN, Double Head R-CNN
Multi-stage Methods:
- Cascade R-CNN, Hybird Task Cascade
通用的模块和方法：
- Mixed Precision Trainning, fp16的意思就是floating point
- Soft NMS, OHEM, DCN, DCNv2, Train from Scratch
- StratchDet, M2Det, GCNet, Generalized Attention
- SyncBN, Group Normalization, Weight Standardization
- HRNet, Guided Anchoring, Libra R-CNN

以上的算法以及涉及到的文章原论文中都有链接，大部分的文章都有必要读一下，理解一下其中的精髓，即便不实现，也要看看。

3. 框架与架构

这部分主要讲的是整个库设计的框架，进行模块化，抽象程度比较高。如果不知道这个框架，感觉直接读源码还是有点吃力的。

在mmdetection中，将所有的检测器进行抽象成以下几个类（class）:

backbone: 骨干网络，用于从图片中提取特征
Nect: （脖子很形象）用于连接backbone和head, 主要是对backbone提取得到的feature map进行修正或者组合，常见的就是FPN(FPN中核心就是多维度特征组合的方法，将三个尺度得到的feature map进行组合)
DenseHead(AnchorHead/AnchorFreeHead): 对特征图的密集位置进行操作（dense location）,包括：AnchorHead, AnchorFreeHead。
ROIExtractor: 从单个或者多个feature map中提取ROI, 最经典的是RoIPooling
RoIHead (BBoxHead/MaskHead): 将ROI提取得到的feature作为输入，进行基于任务的预测，如：预测坐标和类别，bbox预测与回归，mask预测。

示意图如下：

单阶段检测器

主要看SSD, RetinaNet, YOLO等思想，端到端的解决方案。

以YOLOv3为例：（mmdetection没有实现yolo，具体实现可以看一下ultralytics的yolov3）
- Backbone是darknet53。
- Nect是YOLOv3进行的特征融合操作，将当前层与浅层特征进行融合。
- DenseHead就是YOLO层，输入为Nect融合特征后得到的特征，输入就是回归的bbox以及类别
两阶段检测器

经典例子是Faster R-CNN, 这里附上一个cascade R-CNN论文中的图示。（最左侧就是Faster R-CNN）

R-CNN细节讲解博客：http://www.telesens.co/2018/03/11/object-detection-and-classification-using-r-cnns/
- conv : 代表backbone, 进行特征提取操作。
- H0, C0, B0 组成的整体：代表DenseHead,对特征图的密集位置进行操作
- H1, C1, B1组成的整体就是ROIHead
- pool: 功能上就是ROIExtractor，从单个或者多个feature map中提取ROI

总结一下，每个部分大概做啥：

模块	功能/作用
Backbone	提取图片特征
Neck	将提取得到的特征进行融合或者直接用提取的特征
DenseHead	类似RPN,也类似yololayer, 从特征图中得到框的信息，类的信息
ROIExtractor	结合DenseHead提出的框以及Neck得到的特征进行特征提取
RoIHead	将从ROIExtractor中提取得到的内容进行任务的预测

## 4. 训练pipline

技术报告中提出了一个可供目标检测，图像分类，语义分割使用的训练pipline。为了让这个pipline更加灵活和简单，首先定义了一个最小的训练流程，然后提供了挂钩机制（hooking mechanism）,可以将上图右侧的一些功能加载到基础训练流程中。挂载到几个时间点上:

before run
before train epoch
before train iter
after train iter
after train epoch
before val epoch
after val epoch
before val iter
after val iter

这就是基础架构

还有一系列实验结果在论文中，在model zoo中也可以找到：https://github.com/open-mmlab/mmdetection/blob/master/docs/MODEL_ZOO.md

github库地址：https://github.com/open-mmlab/mmdetection

安装：https://github.com/open-mmlab/mmdetection/blob/master/docs/INSTALL.md

常用命令：https://github.com/open-mmlab/mmdetection/blob/master/docs/GETTING_STARTED.md

目标检测框架mmdetection入门：https://zhuanlan.zhihu.com/c_1159526395804725248

商汤开源的mmdetection技术报告的更多相关文章

旷视向左、商汤向右，AI一哥之名将落谁家
编辑 | 于斌出品 | 于见(mpyujian) AI风口历经多年洗礼之后,真正意义上的AI第一股终于要来了. 相比于聚焦在语音识别技术上的科大讯飞.立足互联网产业的百度.发力人形机器人领域的优必选 ...
Java开源生鲜电商平台-系统架构与技术选型(源码可下载）
Java开源生鲜电商平台-系统架构与技术选型(源码可下载) 1. 硬件环境公司服务器 2. 软件环境 2.1 操作系统 Linux CentOS 6.8系列 2.2 反向代理/web服务器 ...
商汤科技汤晓鸥：其实不存在AI行业，唯一存在的是“AI+“行业
https://mp.weixin.qq.com/s/bU-TFh8lBAF5L0JrWEGgUQ 9 月 17 日,2018 世界人工智能大会在上海召开,在上午主论坛大会上,商汤科技联合创始人汤晓鸥 ...
TOP100summit：【分享实录-WalmartLabs】利用开源大数据技术构建WMX广告效益分析平台
本篇文章内容来自2016年TOP100summitWalmartLabs实验室广告平台首席工程师.架构师粟迪夫的案例分享. 编辑:Cynthia 粟迪夫:WalmartLabs实验室广告平台首席工程师 ...
以正确的方式开源 Python 项目 - 技术翻译 - 开源中国社区
以正确的方式开源 Python 项目 - 技术翻译 - 开源中国社区以正确的方式开源 Python 项目英文原文:Open Sourcing a Python Project the Right ...
rsync技术报告(翻译)
本篇为rsync官方推荐技术报告rsync technical report的翻译,主要内容是Rsync的算法原理以及rsync实现这些原理的方法.翻译过程中,在某些不易理解的地方加上了译者本人的注释 ...
开源大数据技术专场（下午）:Databircks、Intel、阿里、梨视频的技术实践
摘要: 本论坛第一次聚集阿里Hadoop.Spark.Hbase.Jtorm各领域的技术专家,讲述Hadoop生态的过去现在未来及阿里在Hadoop大生态领域的实践与探索. 开源大数据技术专场下午场在 ...
开源大数据技术专场（上午）:Spark、HBase、JStorm应用与实践
16日上午9点,2016云栖大会“开源大数据技术专场” (全天)在阿里云技术专家封神的主持下开启.通过封神了解到,在上午的专场中,阿里云高级技术专家无谓.阿里云技术专家封神.阿里巴巴中间件技术部高级技 ...
技术报告：APT组织Wekby利用DNS请求作为C&C设施，攻击美国秘密机构
技术报告:APT组织Wekby利用DNS请求作为C&C设施,攻击美国秘密机构最近几周Paloalto Networks的研究人员注意到,APT组织Wekby对美国的部分秘密机构展开了一次攻击 ...

随机推荐

详解consul的安装和配置
Consul 简化了分布式环境中的服务的注册和发现流程,通过 HTTP 或者 DNS 接口发现.支持外部 SaaS 提供者等. consul提供的一些关键特性: service discovery:c ...
linux 安装 rpm 的jdk
1.下载 JDK 路径:http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html 下载 j ...
[计算机视觉][ARM-Linux开发] Ubuntu14.04安装OpenCV3.2中遇到的问题的解决方案
2. ubuntu下,opencv3.x安装一直downloading这个包,要看超时信息里的下载路径,把它放到下载路径中,比如我的opencv3.2.0源文件路径为/home/han/softwar ...
C++标准模板库集合类与映射类总结
一.STL集合类标准模板库向程序员提供了一些容器类,以便在应用程序中频繁而快速的搜索.std::set和std::multiset用于存储一组经过排序的元素,其查找元素的复杂度为对数,而unorde ...
最新蓝鲸人java校招面经（含整理过的面试题大全）
从6月到10月,经过4个月努力和坚持,自己有幸拿到了网易雷火.京东.去哪儿. 蓝鲸人等10家互联网公司的校招Offer,因为某些自身原因最终选择了蓝鲸人.6.7月主要是做系统复习.项目复盘.Leet ...
java设计模式(一)——单例模式
1.基本介绍单例设计模式,就是采取一定的方法保证在整个的软件系统中,对某个类只能存在一个对象实例,并且该类只提供-一个取得其对象实例的方法(静态方法).如:一般情况下,数据库的连接 2.创建方式: ...
yarn 的常用命令
初始化新项目yarn init添加依赖包yarn add [package]yarn add [package]@[version]yarn add [package]@[tag]将依赖项添加到不同依 ...
（简单实用）Android支付宝商家收款语音播报
支付宝商家收款时,语音提示:支付宝收款xxx元,当时觉得这东西还挺有趣的,第一时间通知给商家,减少不必要的纠纷,节约时间成本,对商家对用户都挺好的. 在商家版有这样收款播报的功能,我觉得挺好的. 对列 ...
Java面试 - 复制引用和复制对象的区别?
复制引用:把原对象的地址赋给了一个新的引用变量,只要其中一个对象的属性发生变化,另一个对象的属性也随之发生变化. 复制对象:把原对象的内容赋给了一个新的对象,其中一个对象的属性发生变化,并不影响另一个 ...
go零碎总结
1.go里通过首字母大小写来区分它是私有的还是公有的,比如对于一个结构体属性一般就以大写开头(和Java不一样,不需要什么getter,setter方法):而对于方法而言,它是隶属于包(包名一定是小写 ...