二阶段目标检测网络-Mask RCNN 详解

ROI Pooling 和 ROI Align 的区别
Mask R-CNN 网络结构
骨干网络 FPN
anchor 锚框生成规则
实验
参考资料

Mask RCNN 是作者 Kaiming He 于 2018 年发表的论文

ROI Pooling 和 ROI Align 的区别

Understanding Region of Interest — (RoI Align and RoI Warp)

Mask R-CNN 网络结构

Mask RCNN 继承自 Faster RCNN 主要有三个改进：

feature map 的提取采用了 FPN 的多尺度特征网络
ROI Pooling 改进为 ROI Align
在 RPN 后面，增加了采用 FCN 结构的 mask 分割分支

网络结构如下图所示：

可以看出，Mask RCNN 是一种先检测物体，再分割的思路，简单直接，在建模上也更有利于网络的学习。

骨干网络 FPN

卷积网络的一个重要特征：深层网络容易响应语义特征，浅层网络容易响应图像特征。Mask RCNN 的使用了 ResNet 和 FPN 结合的网络作为特征提取器。

FPN 的代码出现在 ./mrcnn/model.py中，核心代码如下：

if callable(config.BACKBONE):

    _, C2, C3, C4, C5 = config.BACKBONE(input_image, stage5=True,

                                        train_bn=config.TRAIN_BN)

else:

    _, C2, C3, C4, C5 = resnet_graph(input_image, config.BACKBONE,

                                        stage5=True, train_bn=config.TRAIN_BN)

# Top-down Layers

# TODO: add assert to varify feature map sizes match what's in config

P5 = KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (1, 1), name='fpn_c5p5')(C5)

P4 = KL.Add(name="fpn_p4add")([

    KL.UpSampling2D(size=(2, 2), name="fpn_p5upsampled")(P5),

    KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (1, 1), name='fpn_c4p4')(C4)])

P3 = KL.Add(name="fpn_p3add")([

    KL.UpSampling2D(size=(2, 2), name="fpn_p4upsampled")(P4),

    KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (1, 1), name='fpn_c3p3')(C3)])

P2 = KL.Add(name="fpn_p2add")([

    KL.UpSampling2D(size=(2, 2), name="fpn_p3upsampled")(P3),

    KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (1, 1), name='fpn_c2p2')(C2)])

# Attach 3x3 conv to all P layers to get the final feature maps.

P2 = KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (3, 3), padding="SAME", name="fpn_p2")(P2)

P3 = KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (3, 3), padding="SAME", name="fpn_p3")(P3)

P4 = KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (3, 3), padding="SAME", name="fpn_p4")(P4)

P5 = KL.Conv2D(config.TOP_DOWN_PYRAMID_SIZE, (3, 3), padding="SAME", name="fpn_p5")(P5)

# P6 is used for the 5th anchor scale in RPN. Generated by

# subsampling from P5 with stride of 2.

P6 = KL.MaxPooling2D(pool_size=(1, 1), strides=2, name="fpn_p6")(P5)

# Note that P6 is used in RPN, but not in the classifier heads.

rpn_feature_maps = [P2, P3, P4, P5, P6]

mrcnn_feature_maps = [P2, P3, P4, P5]

其中 resnet_graph 函数定义如下：

def resnet_graph(input_image, architecture, stage5=False, train_bn=True):

    """Build a ResNet graph.

        architecture: Can be resnet50 or resnet101

        stage5: Boolean. If False, stage5 of the network is not created

        train_bn: Boolean. Train or freeze Batch Norm layers

    """

    assert architecture in ["resnet50", "resnet101"]

    # Stage 1

    x = KL.ZeroPadding2D((3, 3))(input_image)

    x = KL.Conv2D(64, (7, 7), strides=(2, 2), name='conv1', use_bias=True)(x)

    x = BatchNorm(name='bn_conv1')(x, training=train_bn)

    x = KL.Activation('relu')(x)

    C1 = x = KL.MaxPooling2D((3, 3), strides=(2, 2), padding="same")(x)

    # Stage 2

    x = conv_block(x, 3, [64, 64, 256], stage=2, block='a', strides=(1, 1), train_bn=train_bn)

    x = identity_block(x, 3, [64, 64, 256], stage=2, block='b', train_bn=train_bn)

    C2 = x = identity_block(x, 3, [64, 64, 256], stage=2, block='c', train_bn=train_bn)

    # Stage 3

    x = conv_block(x, 3, [128, 128, 512], stage=3, block='a', train_bn=train_bn)

    x = identity_block(x, 3, [128, 128, 512], stage=3, block='b', train_bn=train_bn)

    x = identity_block(x, 3, [128, 128, 512], stage=3, block='c', train_bn=train_bn)

    C3 = x = identity_block(x, 3, [128, 128, 512], stage=3, block='d', train_bn=train_bn)

    # Stage 4

    x = conv_block(x, 3, [256, 256, 1024], stage=4, block='a', train_bn=train_bn)

    block_count = {"resnet50": 5, "resnet101": 22}[architecture]

    for i in range(block_count):

        x = identity_block(x, 3, [256, 256, 1024], stage=4, block=chr(98 + i), train_bn=train_bn)

    C4 = x

    # Stage 5

    if stage5:

        x = conv_block(x, 3, [512, 512, 2048], stage=5, block='a', train_bn=train_bn)

        x = identity_block(x, 3, [512, 512, 2048], stage=5, block='b', train_bn=train_bn)

        C5 = x = identity_block(x, 3, [512, 512, 2048], stage=5, block='c', train_bn=train_bn)

    else:

        C5 = None

    return [C1, C2, C3, C4, C5]

anchor 锚框生成规则

在 Faster-RCNN 中可以将 SCALE 也可以设置为多个值，而在 Mask RCNN 中则是每一特征层只对应着一个SCALE 即对应着上述所设置的 16。

实验

何凯明在论文中做了很多对比单个模块试验，并放出了对比结果表格。

从上图表格可以看出：

sigmoid 和 softmax 对比，sigmoid 有不小提升；
特征网络选择：可以看出更深的网络和采用 FPN 的实验效果更好，可能因为 FPN 综合考虑了不同尺寸的 feature map 的信息，因此能够把握一些更精细的细节。
RoI Align 和 RoI Pooling 对比：在 instance segmentation 和 object detection 上都有不小的提升。这样看来，RoIAlign 其实就是一个更加精准的 RoIPooling，把前者放到 Faster RCNN 中，对结果的提升应该也会有帮助。

参考资料

Mask R-CNN 论文

二阶段目标检测网络-Mask RCNN 详解的更多相关文章

（二）目标检测算法之R-CNN
系列博客链接: (一)目标检测概述 https://www.cnblogs.com/kongweisi/p/10894415.html 概述: 1.目标检测-Overfeat模型 2.目标检测-R-C ...
第三十五节，目标检测之YOLO算法详解
Redmon, J., Divvala, S., Girshick, R., Farhadi, A.: You only look once: Unified, real-time object de ...
【转】目标检测之YOLO系列详解
本文逐步介绍YOLO v1~v3的设计历程. YOLOv1基本思想 YOLO将输入图像分成SxS个格子,若某个物体 Ground truth 的中心位置的坐标落入到某个格子,那么这个格子就负责检测出这 ...
物体检测丨Faster R-CNN详解
这篇文章把Faster R-CNN的原理和实现阐述得非常清楚,于是我在读的时候顺便把他翻译成了中文,如果有错误的地方请大家指出. 原文:http://www.telesens.co/2018/03/1 ...
Mask R-CNN详解和安装
Detectron是Facebook的物体检测平台,今天宣布开源,它基于Caffe2,用Python写成,这次开放的代码中就包含了Mask R-CNN的实现. 除此之外,Detectron还包含了IC ...
目标检测 1 ：目标检测中的Anchor详解
咸鱼了半年,年底了,把这半年做的关于目标的检测的内容总结下. 本文主要有两部分: 目标检测中的边框表示 Anchor相关的问题,R-CNN,SSD,YOLO 中的anchor 目标检测中的边框表示目 ...
目标检测：SSD算法详解
一些概念 True Predict True postive False postive 预测为正类 False negivate True negivate 预测为负类真实为 ...
第二十九节，目标检测算法之R-CNN算法详解
Girshick, Ross, et al. “Rich feature hierarchies for accurate object detection and semantic segmenta ...
目标检测(三) Fast R-CNN
引言之前学习了 R-CNN 和 SPPNet,这里做一下回顾和补充. 问题 R-CNN 需要对输入进行resize变换,在对大量 ROI 进行特征提取时,需要进行卷积计算,而且由于 ROI 存在重复 ...
目标检测算法Faster R-CNN
一:Faster-R-CNN算法组成: 1.PRN候选框提取模块: 2.Fast R-CNN检测模块. 二:Faster-R-CNN框架介绍三:RPN介绍 3.1训练步骤:1.将图片输入到VGG或Z ...

随机推荐

04_第一个Java程序
HelloWorld D盘下新建一个文件夹Java_work,存放代码进入Java_work,新建一个Hello.java文件文件后缀名为.java Hello.java 注意:系统可能没有显示文 ...
详解JS中 call 方法的实现
摘要:本文将全面的,详细解析call方法的实现原理本文分享自华为云社区<关于 JavaScript 中 call 方法的实现,附带详细解析!>,作者:CoderBin. 本文将全面的,详 ...
jquery修改图片src
jquery修改图片src,会重新请求此图片url,重新加载图片.方法如下: $("#<img的id>").attr("src", src_valu ...
洛谷P3376 （最大流模板）
1 #include<bits/stdc++.h> 2 #define int long long 3 using namespace std; 4 const int maxn=5005 ...
Go_Goroutine详解
Goroutine详解 goroutine的概念类似于线程,但 goroutine是由Go的运行时(runtime)调度和管理的.Go程序会智能地将 goroutine 中的任务合理地分配给每个CPU ...
Vue3 Vite3 状态管理 pinia 基本使用、持久化、在路由守卫中的使用
在<基于 vite 创建 vue3 项目>一文中整合了 pinia,有不少伙伴不知道 pinia 是什么,本文简单介绍 pinia.主要包括三方面: pinia 的基本用法,在<基于 ...
Python生成10个八位随机密码
#生成10个八位随机密码 import random lst1=[ chr(i) for i in range(97,123) ] #生成26为字母列表 lst2=[i for i in range( ...
JavaWeb完整案例详细步骤
JavaWeb完整案例详细步骤废话少说,展示完整案例代码的业务逻辑图主要实现功能基本的CURD.分页查询.条件查询.批量删除所使用的技术前端:Vue+Ajax+Elememt-ui 后端: ...
Laravel-Easy-Admin 快速搭建数据后台 web管理后台
基于PHP + Laravel + element-admin-ui 搭建的快速数据后台,只在解决系列后台增删改查等日常操作.快速搭建,在生成业务的同时可以花更多的时间关注技术本身,提高程序员自身进阶 ...
Python 根据两个字段排序中文排序汉字排序升序降序
Python3写法代码 # -*- coding: utf-8 -*- # 需求:年龄倒序,姓名正序 from itertools import chain from pypinyin import ...