一、前言

RCNN（Regions with CNN features）算法由Ross Girshick在2014年的论文“Rich feature hierarchies for accurate object detection and semantic segmentation”提出，是深度学习目标检测的开山之作。RCNN将CNN应用到目标检测问题上，它使用选择性搜索从图像中提取候选区域，利用卷积层提取后去区域的特征，最后对这些候选区域进行分类和回归。RCNN的出现大大提高了目标检测的效果，同时也改变了目标检测领域的主要研究思路。它的出现使得人们开始意识到深度学习在计算机视觉领域中的广泛应用前景。虽然RCNN难以满足实时检测需求，但能帮助我们较好的理解并入门目标检测算法。

二、RCNN算法实现

RCNN算法实现主要包括以下步骤：候选区域生成→特征提取→图像分类→候选框位置修正→预测。和论文中实现方式不同的是，本文不采用SVM训练分类器，而是直接使用CNN分类模型完成图像分类和特征提取任务。

本文算法基于python3.7 + pytorch框架 + 17flowers数据集实现。

1. 候选区域生成

RCNN采用选择性搜索（selective search，后面简称为ss）的办法产生候选区域，参考论文：J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders. Selective search for object recognition. IJCV, 2013.

1.1 ss方法实现思路

　　1.1.1 采用某种手段（如Felzenszwalb方法）将图像分割成许多小区域 R = {r₁, ... , r_n}

　　1.1.2 初始化一个集合 S = Ø，用于存放临近区域的相似度结果

　　1.1.3 遍历R中的相邻区域对 (r_m, r_n)，计算他们之间的相似度 s( r_m, r_n)，将相似度结果放入集合 S 中：

　　1.1.4 如果S不为空集：

　　　　a. 根据 s(r_i, r_j)=max(S) 寻找 S 中相似度最高的区域对 (r_i, r_j)

　　　　b. 将区域 r_i 和 r_j 合并，得到新的区域 r_t = r_i U rj

　　　　c. 移除S中区域 r_i 和 r_j 相关的所有相似度结果 S = S \ s(r_p, r_*)，p = {i, j}

　　　　d. 计算新区域 r_t 与周围区域的相似度集合 S_t，并将 S_t放入集合 S 中，将新区域 r_t 放入集合 R 中，即 S = S U S_t， R = R U r_t

　　1.1.5 提取 R 中所有区域的边界框，即为可能存在物体的区域

1.2 ss方法的特点

　　1.2.1 速度快：利用分割算法而非暴力穷举的方式生成候选区域，同时采用自底向上合并重叠区域的方法，减少区域冗余

　　1.2.2 多样化：并非从单一特征定位物体，而是从颜色、纹理、大小等多个方向对分割区域进行合并定位

1.3 ss方法的python实现

ss方法的python代码如下：

1.4 ss方法生成的推荐区域示例

2. 特征提取和分类

RCNN采用CNN作为特征提取器，本文使用Alexnet作为特征提取backbone。

2.1 特征提取和分类流程

　　2.1.1 数据集准备：

　　　　a. 基于2flowers数据（带真实边界框标记信息）数据，利用ss方法生成候选区域proposals

　　　　b. 根据候选区域与真实边界框的IoU结果，将候选区域分为3类（0为背景label，1和2为物体label）

　　　　c. 保存3类候选区图像，并记录label为1和2的物体的边界框信息便于后续回归模型使用

　　2.1.2 预训练：在17-flowers数据集上对Alexnet模型进行分类训练，获得pretrain模型，使之适应当前的任务

　　2.1.3 分类模型训练：基于3类候选区域图像，对pretrain模型进行微调，生成微调后的classify模型

　　2.1.4 特征提取：上面生成的classify模型也是Alexnet结构，去除所有全连接层，classify.features(img)的输出结果即所需特征

2.2 模型结果

　　2.2.1 预训练模型结果示例：

　　2.2.2 分类模型结果示例：

3. 候选框位置修正

使用线性回归模型对候选框位置进行修正，流程如下：

　　a. 将2.1.1中生成的label为1和2的图像输入classify模型，获得对应的图像特征作为回归模型输入

　　b. 将上述图像对应的边界框与真实边界框的偏移值作为回归模型的label

　　c. 基于特征和偏移值训练regress模型

4. 预测

如上我们获得了classify模型用于提取图像特征和分类，regress模型用于计算边界框偏移值，接下来可以进行目标预测。

4.1 预测流程

　　a. 利用ss方法生成候选区域proposals，记录对应的边界框信息

　　b. 将proposals输入classify模型获取分类标签，分类标签为0则该区域为背景，否则为物体

　　c. 提取标签不为0的区域的图像特征，并将其送入regress模型，获取预测的边界框偏移值

　　d. 选取L1范数最小的偏移值，将最小偏移值与其对应的边界框位置相加，作为最终的预测结果

4.2 预测结果

3. 数据和代码

本文中数据和详细代码实现请移步：https://github.com/jchsun1/RCNN

Reference：

本文至此结束，祝君好运。

【目标检测】RCNN算法实现的更多相关文章

AI佳作解读系列(二)——目标检测AI算法集杂谈：R-CNN，faster R-CNN，yolo，SSD，yoloV2，yoloV3
1 引言深度学习目前已经应用到了各个领域,应用场景大体分为三类:物体识别,目标检测,自然语言处理.本文着重与分析目标检测领域的深度学习方法,对其中的经典模型框架进行深入分析. 目标检测可以理解为是物 ...
CVPR2020论文介绍： 3D 目标检测高效算法
CVPR2020论文介绍: 3D 目标检测高效算法 CVPR 2020: Structure Aware Single-Stage 3D Object Detection from Point Clo ...
目标检测 | 经典算法 Cascade R-CNN: Delving into High Quality Object Detection
作者从detector的overfitting at training/quality mismatch at inference问题入手,提出了基于multi-stage的Cascade R-CNN ...
[目标检测]RCNN系列原理
1 RCNN 1.1 训练过程 (1) 训练时采用fine-tune方式: 先用Imagenet(1000类)训练,再用PASCAL VOC(21)类来fine-tune.使用这种方式训练能够提高8个 ...
第三节，目标检测---R-CNN网络系列
1.目标检测检测图片中所有物体的类别标签位置(最小外接矩形/Bounding box) 区域卷积神经网络R-CNN 模块进化史 2.区域卷积神经网络R-CNN Region proposals+ ...
CNN目标检测系列算法发展脉络——学习笔记（一）：AlexNet
在咨询了老师的建议后,最近开始着手深入的学习一下目标检测算法,结合这两天所查到的资料和个人的理解,准备大致将CNN目标检测的发展脉络理一理(暂时只讲CNN系列部分,YOLO和SSD,后面会抽空整理). ...
标题发布状态评论数阅读数操作操作 CNN目标检测系列算法发展脉络简析——学习笔记（三）：Fast R-CNN
最近两周忙着上网课.投简历,博客没什么时间写,姑且把之前做的笔记放上来把... 下面是我之前看论文时记的笔记,之间copy上来了,内容是Fast R-CNN的,以后如果抽不出时间写博客,就放笔记上来( ...
目标检测YOLO算法-学习笔记
算法发展及对比: 17年底,mask-R CNN YOLO YOLO最大的优势就是快原论文中流程,可以检测出20类物体. 红色网格-张量,在这样一个1×30的张量中保存的数据横纵坐标中心点缩放到0 ...
目标检测-SSD算法从零实现
1. 几个工具函数 def box_corner_to_center(boxes): """从(左上,右下)转换到(中间,宽度,高度)""" ...
AI R-CNN目标检测算法
Region-CNN,简称R-CNN,是首次将深度学习应用于目标检测的算法. bounding box IOU 非极大值抑制 selective search 参考链接: https://blog.c ...

随机推荐

Cobalt Strike 连接启动教程（1）
第一步:把cobaltstrike4(解压后)拷贝到虚拟机Kali系统的root目录下第二步:进入cobalstrike4文件夹中第三步:选寻kali系统 IP地址第四步: 启动服务端:(t ...
Python潮流周刊#4：Python 2023 语言峰会
你好,我是猫哥.这里记录每周值得分享的 Python 及通用技术内容,本期是特别加更版,聚焦于 Python 官方 2023 年语言峰会的系列博客. 博客原文:https://pythoncat.to ...
CANoe学习笔记（二）：创建第一个事件触发帧(基于LIN)
内容: 创建一个事件触发帧: 包含几个不同无条件帧: 事件触发帧的触发: 事先准备: 创建三个文件夹,用来放不同类型文件: 工程创建新建一个Lin工程,双击即可,然后命名为LINconf保存. 创建 ...
Hive执行计划之只有map阶段SQL性能分析和解读
目录目录概述 1.不带函数操作的select-from-where型简单SQL 1.1执行示例 1.2 运行逻辑分析 1.3 伪代码解释 2.带普通函数和运行操作符的普通型SQL执行计划解读 2. ...
Kubernetes(k8s)网络策略NetworkPolicy
目录一.系统环境二.前言三.网络策略(NetworkPolicy)简介四.创建pod和svc 五.没有网络策略的条件下访问pod 六.给pod添加网络策略 6.1 入站网络策略 6.1.1 入 ...
使用Mybatis生成树形菜单-适用于各种树形场景
开发中我们难免会遇到各种树形结构展示的场景.比如用户登录系统后菜单的展示,某些大型购物网站商品的分类展示等等,反正开发中会遇到各种树形展示的功能,这些功能大概处理的思路都是一样的,所以本文就总结一下树 ...
Java类加载原理中为何要设计双亲委派机制
首先,给大家演示两个示例代码,我们自定义一个与Java核心类库中java.lang.String类名相同的代码: package java.lang; /** * 自定义java.lang.Strin ...
C++ Tips of the Week-01 string_view
1: string_view ref https://abseil.io/tips/1 函数参数需要是一个字符串的时候,通常的实现有以下几种: // C Convention void TakesCh ...
基于html2canva jspdf 实现前端页面加水印并导出页面PDF
基于html2canva jspdf 实现前端页面加水印并导出页面PDF; 下载完整代码请访问uni-app插件市场地址:https://ext.dcloud.net.cn/plugin?id=12 ...
C# - XMLHelper ：一个操作XML的简单类库
下午写了一个操作XML文件的类库,后来不用了,水篇文章存个档整体功能 XMLHelper.cs主要提供以下功能: 加载XML文件:从文件路径或字符串中加载XML文档,并返回XmlDocument对象 ...

【目标检测】RCNN算法实现