Mask RCNN 原理

转自：https://blog.csdn.net/ghw15221836342/article/details/80084861

https://blog.csdn.net/ghw15221836342/article/details/80084984

Mask RCNN 原理：

简单说一下Mask R-CNN 是一个两阶段的框架，第一个阶段扫描图像并生成提议（proposals，即有可能包含一个目标的区域），第二阶段分类提议并生成边界框和掩码。Mask R-CNN 扩展自 Faster R-CNN，由同一作者在去年提出。Faster R-CNN 是一个流行的目标检测框架，Mask R-CNN 将其扩展为实例分割框架。

Mask R-CNN 的主要构建模块：

1. 主干架构

主干网络（上图左边第一个箭头）的简化图示

这是一个标准的卷积神经网络（通常来说是 ResNet50 和 ResNet101），作为特征提取器。底层检测的是低级特征（边缘和角等），较高层检测的是更高级的特征（汽车、人、天空等）。

经过主干网络的前向传播，图像从 1024x1024x3（RGB）的张量被转换成形状为 32x32x2048 的特征图。该特征图将作为下一个阶段的输入。

特征金字塔网络（FPN）

Feaature Pyramid Networks for Object Detection

上述的主干网络还可以进一步提升。由 Mask R-CNN 的同一作者引入的特征金字塔网络（FPN）是对该主干网络的扩展，可以在多个尺度上更好地表征目标。

FPN 通过添加第二个金字塔提升了标准特征提取金字塔的性能，第二个金字塔可以从第一个金字塔选择高级特征并传递到底层上。通过这个过程，它允许每一级的特征都可以和高级、低级特征互相结合。

在我们的 Mask R-CNN 实现中使用的是 ResNet101+FPN 主干网络。

2. 区域建议网络（RPN）

RPN 是一个轻量的神经网络，它用滑动窗口来扫描图像，并寻找存在目标的区域。

RPN 扫描的区域被称为 anchor，这是在图像区域上分布的矩形，如上图所示。这只是一个简化图。实际上，在不同的尺寸和长宽比下，图像上会有将近 20 万个 anchor，并且它们互相重叠以尽可能地覆盖图像。

RPN 扫描这些 anchor 的速度有多快呢？非常快。滑动窗口是由 RPN 的卷积过程实现的，可以使用 GPU 并行地扫描所有区域。此外，RPN 并不会直接扫描图像，而是扫描主干特征图。这使得 RPN 可以有效地复用提取的特征，并避免重复计算。通过这些优化手段，RPN 可以在 10ms 内完成扫描（根据引入 RPN 的 Faster R-CNN 论文中所述）。在 Mask R-CNN 中，我们通常使用的是更高分辨率的图像以及更多的 anchor，因此扫描过程可能会更久。

RPN 为每个 anchor 生成两个输出：

anchor 类别：前景或背景（FG/BG）。前景类别意味着可能存在一个目标在 anchor box 中。
边框精调：前景 anchor（或称正 anchor）可能并没有完美地位于目标的中心。因此，RPN 评估了 delta 输出（x、y、宽、高的变化百分数）以精调 anchor box 来更好地拟合目标。

使用 RPN 的预测，我们可以选出最好地包含了目标的 anchor，并对其位置和尺寸进行精调。如果有多个 anchor 互相重叠，我们将保留拥有最高前景分数的 anchor，并舍弃余下的（非极大值抑制）。然后我们就得到了最终的区域建议，并将其传递到下一个阶段。

3. ROI 分类器和边界框回归器

这个阶段是在由 RPN 提出的 ROI 上运行的。正如 RPN 一样，它为每个 ROI 生成了两个输出：

类别：ROI 中的目标的类别。和 RPN 不同（两个类别，前景或背景），这个网络更深并且可以将区域分类为具体的类别（人、车、椅子等）。它还可以生成一个背景类别，然后就可以弃用 ROI 了。
边框精调：和 RPN 的原理类似，它的目标是进一步精调边框的位置和尺寸以将目标封装。

ROI 池化

在我们继续之前，需要先解决一些问题。分类器并不能很好地处理多种输入尺寸。它们通常只能处理固定的输入尺寸。但是，由于 RPN 中的边框精调步骤，ROI 框可以有不同的尺寸。因此，我们需要用 ROI 池化来解决这个问题。

ROI 池化是指裁剪出特征图的一部分，然后将其重新调整为固定的尺寸。这个过程实际上和裁剪图片并将其缩放是相似的（在实现细节上有所不同）。

Mask R-CNN 的作者提出了一种方法 ROIAlign，在特征图的不同点采样，并应用双线性插值，主要是减少量化操作带来的特征损失https://www.cnblogs.com/MY0213/p/9567014.html。在我们的实现中，为简单起见，我们使用 TensorFlow 的 crop_and_resize 函数来实现这个过程。

4. 分割掩码

到第 3 节为止，我们得到的正是一个用于目标检测的 Faster R-CNN。而分割掩码网络正是 Mask R-CNN 的论文引入的附加网络。

掩码分支是一个卷积网络，取 ROI 分类器选择的正区域为输入，并生成它们的掩码。其生成的掩码是低分辨率的：28x28 像素。但它们是由浮点数表示的软掩码，相对于二进制掩码有更多的细节。掩码的小尺寸属性有助于保持掩码分支网络的轻量性。在训练过程中，我们将真实的掩码缩小为 28x28 来计算损失函数，在推断过程中，我们将预测的掩码放大为 ROI 边框的尺寸以给出最终的掩码结果，每个目标有一个掩码。

Mask RCNN 原理的更多相关文章

TF实战：(Mask R-CNN原理介绍与代码实现)-Chapter-8
二值掩膜输出依据种类预测分支(Faster R-CNN部分)预测结果:当前RoI的物体种类为i第i个二值掩膜输出就是该RoI的损失Lmask 对于预测的二值掩膜输出,我们对每个像素点应用sigmoid ...
Mask RCNN 源码阅读(update)
之前看了Google官网的object_dectect 的源码,感觉Google大神写的还不错.最近想玩下Mask RCNN,就看了下源码,这里刚好当做总结和梳理.链接如下: Google官网的obj ...
Mask RCNN 学习笔记
下面会介绍基于ResNet50的Mask RCNN网络,其中会涉及到RPN.FPN.ROIAlign以及分类.回归使用的损失函数等介绍时所采用的MaskRCNN源码(python版本)来源于GitH ...
物体检测之FPN及Mask R-CNN
对比目前科研届普遍喜欢把问题搞复杂,通过复杂的算法尽量把审稿人搞蒙从而提高论文的接受率的思想,无论是著名的残差网络还是这篇Mask R-CNN,大神的论文尽量遵循著名的奥卡姆剃刀原理:即在所有能解决问 ...
[代码解析]Mask R-CNN介绍与实现(转)
文章来源 DFann 版权声明:如果你觉得写的还可以,可以考虑打赏一下.转载请联系. https://blog.csdn.net/u011974639/article/details/78483779 ...
[Network Architecture]Mask R-CNN论文解析（转）
前言最近有一个idea需要去验证,比较忙,看完Mask R-CNN论文了,最近会去研究Mask R-CNN的代码,论文解析转载网上的两篇博客技术挖掘者 remanented 文章1 论文题目:Ma ...
终极指南：构建用于检测汽车损坏的Mask R-CNN模型（附Python演练）
介绍计算机视觉领域的应用继续令人惊叹着.从检测视频中的目标到计算人群中的人数,计算机视觉似乎没有无法克服的挑战. 这篇文章的目的是建立一个自定义Mask R-CNN模型,可以检测汽车上的损坏区域(参 ...
论文笔记：Mask R-CNN
之前在一次组会上,师弟诉苦说他用 UNet 处理一个病灶分割的任务,但效果极差,我看了他的数据后发现,那些病灶区域比起整张图而言非常的小,而 UNet 采用的损失函数通常是逐像素的分类损失,如此一来, ...
mask rcnn
Mask RCNN Mask RCNN 中主要改进是在faster rcnn中box regression 的branch 上加入mask prediction branch,能够得到点到点的预测. ...

随机推荐

cocos2d-x学习记录6——自定义Button
cocos2d-x中封装CCMenuItem等相关按钮,但是有些时候需要自己封装按钮,这样能够更加灵活的实现对应功能. 自定义Button,需要重写OnEnter()和onExit()函数,并在对应函 ...
LeetCode Letter Combinations of a Phone Number (DFS)
题意 Given a digit string, return all possible letter combinations that the number could represent. A ...
kubernetes 集群新增node 节点并将应用分配到新增节点
第一章 1.重新安装一台kubernetes node节点,新增节点:192.168.1.192 网址:https://www.cnblogs.com/zoulixiang/p/9504324.htm ...
pandas 初识（一）
基本内容 Series: Series 是有一组数据(numpy的数据类型 numpy.ndarray)以及一组数据标签(即索引)组成,可以看成一个一个定长的有序字典(索引值到数据值的一个映射) ob ...
联想拯救者15-isk安装固态硬盘与系统迁移教程
一.固态选择首先知道拯救者15-ISK是m.2接口2280尺寸,支持PCIE协议NVMe接口标准.我加装的固态是HP EX900系列250G M.2 NVMe固态硬盘. 二.开盖安装 1.拯救者15 ...
RabbitMq基础教程之基本概念
RabbitMq基础教程之基本概念 RabbitMQ是一个消息队列,和Kafka以及阿里的ActiveMQ从属性来讲,干的都是一回事.消息队列的主要目的实现消息的生产者和消费者之间的解耦,支持多应用之 ...
LintCode——Chalkboard XOR Game(黑板游戏)
黑板游戏: We are given non-negative integers nums[i] which are written on a chalkboard. Alice and Bob ta ...
vm15安装esxi6.0
vmware 15安装esxi6.0时发现出现没有硬盘选择,导致无法安装在vm12上安装正常经过测试 1.需要在虚拟机硬件兼容性上选择12.x 2.版本也要选6.0,不要选6.X 其次,esxi要 ...
原生 JS 中延迟脚本和异步脚本
一.延迟脚本 defer HTML4.0中为<script> 标签添加了个defer属性.属性的用途是表民脚本在执行时不会影响页面的构造. 脚本会被延迟到页面加载完毕的时候,执行.也就是当 ...
Linux命令（一） pwd ，cd
1.pwd命令以绝对路径的方式显示当前所处的工作目录,从根目录 / 开始,每一级目录用 / 分隔.第一个 / 表示根目录,最后一个目录是当前目录.当不知道当前处于哪个目录的时候,使用 pwd 命令就 ...

Mask RCNN 原理

转自：https://blog.csdn.net/ghw15221836342/article/details/80084861

Mask RCNN 原理：

Mask RCNN 原理的更多相关文章

随机推荐

热门专题