RCNN论文阅读笔记

一摘要：

两个主要工作：1将cnn和自上而下的区域提案结合进行定位和对象分割；2当训练数据稀缺时，先预训练然后微调。

rccn工作分为四步：1输入一张图片

　　　　　　　　　2用selective search算法对每张图片产生2000张自下而上的候选目标区域

　　　　　　　　　3用cnn对每一个候选区域提取深度特征（因为候选区域大小形状不一致，而cnn输入大小要固定227*227，因此本文用affine image wrapping先把候选区域统一为227*227）

4用svm对每个区域进行分类

二使用rcnn进行对象检测：

对象检测主要有三个模块：1产生与类别无关的候选区域

2用卷积神经网络产生固定长度的特征向量

3使用线性svm进行分类

三Visualization, ablation, and modes of error

1可视化

其中第一层卷积提取的是图片的边缘和颜色特征，后面的特征难以理解。

文章中将池化层5进行了可视化，pool5的特征图为6*6*256=9216维，忽略边界效应，其感受野为195*195，一个中央pool5几乎具有全局感受野。、

256个特征中有6个是可视化的，如图，网络将特征与形状纹理颜色材质等结合在一起，最后的全连接fc6具有模拟大量丰富特征组合的能力

2.Ablation studies

逐层分析每层的作用，发现全连接层参数巨大而对于目标识别和分类影响比较小，删除fc6和fc7，网络依旧有较好的结果，虽然pool5的的特征值仅仅占6%，所以说cnn的识别能力主要来自卷积层。fine-tuning改善了准确率，微调的改进作用主要作用与fc6和fc7，说明pool5的学习具有一般性，大部分的改进是通过学习特定领域的非线性分类器得到的。

3.检测错位分析

没看太懂

4边框回归

使用线性回归模型来预测定位窗口

四语意分割

区域分类是语意分割的标准技术

分割的cnn特征有三种策略：1忽略区域形状，全部变形为227*227，计算cnn特征（full）

　　　　　　　　　　　　 2仅在区域前景计算cnn特征，用均值输入替换背景，使平均相减后背景区域为（fg）

3full+fg

五总结

论文作者认为：自上而下的候选区域提案和卷积神经网络结合是自然而然的，能提高效率的。

///////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

学习感悟：

RCNN的训练方式很值得学习：目标检测的标注数据是比较少的，但是图片分类有着大量的标记数据，RCNN首先利用ILSVRC2012图片分类数据库进行预训练甚至可以直接使用AlexNet的参数，得到一个1000维的输出，然后用PASCAL VOC2007数据可进行训练，因为此数据只有20个类别，因此将网络最后的全连接层由1000换成21，20个种类加一个背景类，然后再使用PASCAL VOC2007对数据进行微调。这也印证了论文中说的，卷积层的特征参数具有一般性，用数据多的图片分类数据进行预训练，用数据少的识别数据进行微调，微调主要作用于后面的全连接层。

目标和背景通过候选框和标定框的IOU[（A∩B）/（A∪B）]来选取，重叠度大于0.5是，标记为目标，重叠度小于0.5时为北京，每个batch为32个正样本+96个背景。

RCNN优势：

　　　　　 1相较于传统的识别方法如：sift、hog的优势在于，利用深度学习方法提取图片的深度特征，而不再利用人为设计的特征

2采用区域建议的方式，首先提取可能的目标，不再利用滑动窗口的方式，省去大量计算

3加入了边界框回归策略来进一步提升检测精度。

RCNN论文阅读笔记的更多相关文章

Fast R-CNN论文阅读笔记
论文地址:Fast R-CNN R-CNN的缺陷 (1)训练是一个多级的流水线.R-CNN首先在候选目标上微调一个卷积神经网络,使用log loss.然后使用SVMs充当目标分类器,以取代softma ...
论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
论文阅读笔记 Word Embeddings A Survey
论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, ...
论文阅读笔记 Improved Word Representation Learning with Sememes
论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于 ...
[置顶] 人工智能（深度学习）加速芯片论文阅读笔记（已添加ISSCC17，FPGA17...ISCA17...）
这是一个导读,可以快速找到我记录的关于人工智能(深度学习)加速芯片论文阅读笔记. ISSCC 2017 Session14 Deep Learning Processors: ISSCC 2017关于 ...
Nature/Science 论文阅读笔记
Nature/Science 论文阅读笔记 Unsupervised word embeddings capture latent knowledge from materials science l ...
论文阅读笔记（二十一）【CVPR2017】：Deep Spatial-Temporal Fusion Network for Video-Based Person Re-Identiﬁcation
Introduction (1)Motivation: 当前CNN无法提取图像序列的关系特征:RNN较为忽视视频序列前期的帧信息,也缺乏对于步态等具体信息的提取:Siamese损失和Triplet损失 ...
论文阅读笔记（十八）【ITIP2019】：Dynamic Graph Co-Matching for Unsupervised Video-Based Person Re-Identiﬁcation
论文阅读笔记(十七)ICCV2017的扩刊(会议论文[传送门]) 改进部分: (1)惩罚函数:原本由两部分组成的惩罚函数,改为只包含 Sequence Cost 函数: (2)对重新权重改进: ① P ...

随机推荐

Linux nohup命令详解，终端关闭程序依然可以在执行！
大家好,我是良许. 在工作中,我们很经常跑一个很重要的程序,有时候这个程序需要跑好几个小时,甚至需要几天,这个时候如果我们退出终端,或者网络不好连接中断,那么程序就会被中止.而这个情况肯定不是我们想看 ...
python测试标准库doctest
引言: doctest是python的一个测试用标准库. 顾名思义,这个模块会寻找程序里面看起来像交互式Python会话的文本片段,然后运行这个会话,来判断实际运行结果和你希望的结果是否一致. 这个模 ...
Beta冲刺<10/10>
这个作业属于哪个课程软件工程 (福州大学至诚学院 - 计算机工程系) 这个作业要求在哪里 Beta冲刺这个作业的目标 Beta冲刺--第十天(05.28) 作业正文如下其他参考文献 ... B ...
Jmeter接口测试，往MySQL数据库写数据时，中文显示？？？
调Jmeter接口测试,请求字段输入中文,查看数据库插入情况, 发现数据库显示 ???
git 如何解决 (master|MERGING)
git 如何解决 (master|MERGING) git reset --hard head //回退版本信息 git pull origin master
ubuntu添加新的分辨率选项（干货）
ubuntu默认可选的分辨率不能够满足我的需求,在这里记录增加1440*900分辨率的过程 1. 终端输入: cvt 1440 900 2. 修改配置文件: vim /etc/profile xran ...
express高效入门教程（4）
4.静态文件 4.1.普通处理静态文件的方法在./views/index.html文件中去引入另一个css文件index.css,index.css文件放在public/css目录下,目录结构是这样 ...
数据库管理与迁移（Liquibase）
SpringBoot 是为了简化 Spring 应用的创建.运行.调试.部署等一系列问题而诞生的产物,自动装配的特性让我们可以更好的关注业务本身而不是外部的XML配置,我们只需遵循规范,引入相关的依赖 ...
Java中保留小数点后几位
不想多说啥了..ε=(´ο｀*)))唉基础都给忘了..今天比赛跌入十八层地狱.... 用DecimalFormat对象的format方法进行格式化.. package cn.test; impo ...
「从零单排canal 04」启动模块deployer源码解析
基于1.1.5-alpha版本,具体源码笔记可以参考我的github:https://github.com/saigu/JavaKnowledgeGraph/tree/master/code_read ...

RCNN论文阅读笔记

RCNN论文阅读笔记的更多相关文章

随机推荐

热门专题