RCNN是从图像中检测物体位置的方法,严格来讲不属于三维计算机视觉。但是这种方法却又非常非常重要,对三维物体的检测非常有启发,所以在这里做个总结。

1、RCNN - the original idea

  —— <Rich feature hierarchies for accurate object detection and semantic segmentation>

这篇文章提出了用CNN网络来对物体进行检测的思路。

Q:

  a. CNN网络中存在卷积层和池化层,每次池化都会弱化物体的位置信息,强化物体的特征信息,所以CNN网络最终会告诉我们是什么,而不是在哪儿

  b. 要使用CNN网络来检测,直觉上我们可以训练一个识别某物体的网络,来对小方块进行分类。但是这需要大量的训练集,可能对于待检测物体,我们没有收集大量训练集的机会

  c. CNN网络的图像输入层具有固定的维度,任意大小的小方块是无法直接输入到CNN网络里的

A:

  a. 文章提出了可以在已经训练好的网络上利用小规模的训练集进行优化,也能达到很好的效果。

  b.通过 selective search来确定可能含有物体的小方块

  c.将消方块进行拉伸(warp),送入CNN进行分类,最终实现检测

细节:

  1、使用了ILSVRC 2012对网络进行预训练,步长0.01

  2、精训练使用的步长是0.001

  3、mini-batch size = 128, 其中背景96,带东西的32。有意的bias,让网络更大概率判为背景

  4、loss function 中,IoU超过50%判为1,否则为0

  5、使用svm对物体类别进行判断

  6、对box进行线性回归,获得更高的精度(后面还会提到)

2、SPPNet - 结合金字塔

  —— <Spatial pyramid pooling in deep convolutional networks for visual recognition>

  在第一步使用rcnn中,检测需要将图片拉伸成特定的大小,便于输入网络。这显然很不合理,很多东西拉伸以后就完全变形了,这会降低检测的精度。所以需要一种不拉伸方块的方法,来对物体进行检测。

Q:

  a.拉伸图像会带来识别精度的下降,在r-cnn中尤其明显

A:

  a.金字塔池化:将任意维度的图片池化成同一维度。例如,图片为256*256,金字塔接受的就是maxpool2dlayer(16,'stride',16),如果图片为128*128,金字塔接受的就是maxpool2dlayer(8,'stride',8)

  

细节:

  只用了两种bin size 来构建训练集,180 * 180, 224 * 224. 因为只有两种情况,所以可以很方便的构建bp函数

3、FastCNN - 要啥金字塔,一层就够啦

  —— <Fast R-CNN>

Q:

  a.对于每个 box/proposal 都需要进行一次feed forward.

  b.训练时需要对分类函数和回归函数分开训练

A:

  a.对图像进行一次整体的feed forward,得到总的卷积结果;对总结果中的box,每个box一次,分别进行ROI pooling (其实就是金字塔的第一层)

  b. ROI pooling 后会得到固定维度的向量,送入多次全连接层,直接映射成类别和box的回归

细节:

  1、训练时,所有的权重都得到迭代

4、Faster R-CNN — 这才是颠覆

  ——<Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks>

Q:

  a. 对每张图都要进行一次 selective search 以获得proposal太耗时了

A:

  a.设计一个神经网络 Region Proposal Net 自动来提出proposal 吧!

RPN 本质上可以看作一个非常独立的部分,虽然它号称使用了整幅图像的feature,但功能上RPN是独立的。RPN的任务是输入图像,输出一系列Proposal(四点坐标+是否有物体)

1、使用卷积网络的最后一个卷积层卷积完的结果 Last_Image * final_convolution2dlayer(n,d). 作为RPN的真正输入(前面都是公用的,后面才是RPN)

2、使用一个3*3的小卷积掩模将1中的结果抽象成d 维向量。

3、将该向量送入2个全连接层——分类全连接(2K输出)和坐标全连接(4K输出)————k个proposal (3 scale,2 aspect ratio)

4、在2中,掩模的位置决定了全连接输出参数的"原点"

5、总结

  在神经网络中,全连接是最强的非线性映射方式,也是花费最重的。在结果层少量的使用全连接以换取强大的映射方程是很有意义的。

  说了那么多,和三维视觉有毛关系?其实关系在这里,在二维图像中检测物体位置和在三维图像中检测物体位姿是对偶的。不信?见 <Deep Sliding Shapes for amodal 3D object detection in RGB-D images>

  

  

三维计算机视觉 —— 中层次视觉 —— RCNN Family的更多相关文章

  1. 三维计算机视觉 — 中层次视觉 — Point Pair Feature

    机器人视觉中有一项重要人物就是从场景中提取物体的位置,姿态.图像处理算法借助Deep Learning 的东风已经在图像的物体标记领域耍的飞起了.而从三维场景中提取物体还有待研究.目前已有的思路是先提 ...

  2. PCL —— RCNN Family 中层次点云处理

    博客转载自:http://www.cnblogs.com/ironstark/p/6046411.html RCNN是从图像中检测物体位置的方法,严格来讲不属于三维计算机视觉.但是这种方法却又非常非常 ...

  3. PCL—低层次视觉—关键点检测(NARF)

    关键点检测本质上来说,并不是一个独立的部分,它往往和特征描述联系在一起,再将特征描述和识别.寻物联系在一起.关键点检测可以说是通往高层次视觉的重要基础.但本章节仅在低层次视觉上讨论点云处理问题,故所有 ...

  4. PCL—低层次视觉—关键点检测(rangeImage)

    关键点又称为感兴趣的点,是低层次视觉通往高层次视觉的捷径,抑或是高层次感知对低层次处理手段的妥协. ——三维视觉关键点检测 1.关键点,线,面 关键点=特征点: 关键线=边缘: 关键面=foregro ...

  5. PCL—低层次视觉—点云分割(邻近信息)

    分割给人最直观的影响大概就是邻居和我不一样.比如某条界线这边是中华文明,界线那边是西方文,最简单的分割方式就是在边界上找些居民问:"小伙子,你到底能不能上油管啊?”.然后把能上油管的居民坐标 ...

  6. [Deep-Learning-with-Python]计算机视觉中的深度学习

    包括: 理解卷积神经网络 使用数据增强缓解过拟合 使用预训练卷积网络做特征提取 微调预训练网络模型 可视化卷积网络学习结果以及分类决策过程 介绍卷积神经网络,convnets,深度学习在计算机视觉方面 ...

  7. PCL — Point Pair Feature 中层次点云处理

    博客转载自:http://www.cnblogs.com/ironstark/p/5971976.html 机器人视觉中有一项重要人物就是从场景中提取物体的位置,姿态.图像处理算法借助Deep Lea ...

  8. 计算机视觉中的词袋模型(Bow,Bag-of-words)

    计算机视觉中的词袋模型(Bow,Bag-of-words) Bag-of-words 读 'xw20084898的专栏'的blogBag-of-words model in computer visi ...

  9. 三维场景中使用BillBoard技术

    三维场景中对于渲染效果不是很精致的物体可以使用BillBoard技术实现,使用该技术需要将物体实时朝向摄像机,即计算billboard的旋转矩阵M. 首先根据摄像机位置cameraPos和billBo ...

随机推荐

  1. 【网站管理6】_一个网站SEO优化方案

    首先,前端/页编人员主要负责站内优化,主要从四个方面入手: 第一个,站内结构优化 合理规划站点结构(1.扁平化结构 2.辅助导航.面包屑导航.次导航) 内容页结构设置(最新文章.推荐文章.热门文章.增 ...

  2. 微信小程序中的单位

    vw:viewpoint width,视窗宽度,1vw等于视窗宽度的1%. vh:viewpoint height,视窗高度,1vh等于视窗高度的1%. rpx:rpx单位是微信小程序中css的尺寸单 ...

  3. PHP02

    PHP02 1.虚拟主机配置完毕后,机器上的ip和localhost都会默认直接请求第一个虚拟主机 2.解析文本文件显示表格 将文本文件中的数据呈现在一个表格中 1)读取文件内容 包含文本的字符串数据 ...

  4. 20180821 Python学习笔记:如何获取当前程序路径

    20180821 Python学习笔记:如何获取当前程序路径 启动的脚本的路径为:D:\WORK\gitbase\ShenzhenHouseInfoCrawler\main.py 当前脚本的路径为:D ...

  5. OpenCV3 for python3 学习笔记1

    1.读/写图像文件 OpenCV的imread()函数和imwrite()函数能支持各种静态图像文件格式.不同系统支持的文件格式不一样,但都支持BMP格式,通常还应该支持PNG.JPEG和TIFF格式 ...

  6. CTR预估算法之FM, FFM, DeepFM及实践

    https://blog.csdn.net/john_xyz/article/details/78933253 目录目录CTR预估综述Factorization Machines(FM)算法原理代码实 ...

  7. Django根据现有数据库建立/更新model

    Django引入外部数据库还是比较方便的,步骤如下: 创建一个项目,修改seting文件,在setting里面设置你要连接的数据库类型和连接名称,地址之类,和创建新项目的时候一致 运行下面代码可以自动 ...

  8. 【转】ASP.NET中验证控件的使用

    前言: 前几日,无奈用JS判断控件的有效性,发现的确是一件费力.费神的事情!特别是针对邮件格式.邮政编码等的关于正则表达式的JS验证(其中涉及正则表达式的比较等,较烦~).其实对于这些常用的控件有效性 ...

  9. laya 自定义组件加载错误:显示空白

    laya ide  自定义组件的制作与使用 https://ldc.layabox.com/doc/?nav=zh-js-2-2-3 在xml定义时,resName="sbtn" ...

  10. Windows Server 2008 IIS安装FTP及端口配置

    添加角色IIS,选择上FTP服务 打开IIS,右击网站,添加FTP站点 允许访问的指定用户,必须是Windows系统真实存在的用户,为了安全起见,此用户只赋予user组即可,不能赋予远程桌面权限 如果 ...