R-CNN学习笔记

step1:总览

步骤:
1. 输入图片
2. 先挑选大约2000个感兴趣区域(ROI)使用select search方法：【在输入的图像中寻找blobby regions(可能相同纹理,颜色等)】{区域选择算法是固定算法,不需要学习}
3. 将每块区域变形为同一个大小，送入卷积神经网络计算特征
4. 送入SVM分类器进行分类

step2详细描述

1.select search算法

该算法通过图像中的纹理，颜色等特征进行区域划分，算法如下

2.将图片输入神经网络前处理

由于本文作者是使用alexNet，该网络需要输入固定的大小
所以需要对图片进行
1. 裁剪
2. 变形
本文将图片裁剪变形为227*227的大小

3.将图片送入神经网络提取特征

RCNN先再ImageNet上进行预训练(因为作者带标签的数据不多)
再在自己的网络上进行微调

注意:作者使用和ImageNet上相同的架构,只在左后进全连接层的分成1000类(imagenet上有1000类)改成自己的N+1(N个类别加1个背景)
该神经网络有5个卷积层2个全连接层,具体为

# Building 'AlexNet'

def create_alexnet(num_classes):

    network = input_data(shape=[None, config.IMAGE_SIZE, config.IMAGE_SIZE, 3]) # 224*224*3

    network = conv_2d(network, 96, 11, strides=4, activation='relu')

    network = max_pool_2d(network, 3, strides=2)

    network = local_response_normalization(network)

    network = conv_2d(network, 256, 5, activation='relu')

    network = max_pool_2d(network, 3, strides=2)

    network = local_response_normalization(network)

    network = conv_2d(network, 384, 3, activation='relu')

    network = conv_2d(network, 384, 3, activation='relu')

    network = conv_2d(network, 256, 3, activation='relu')

    network = max_pool_2d(network, 3, strides=2)

    network = local_response_normalization(network)

    network = fully_connected(network, 4096, activation='tanh')

    network = dropout(network, 0.5)

    network = fully_connected(network, 4096, activation='tanh')

    network = dropout(network, 0.5)

    network = fully_connected(network, num_classes, activation='softmax')

    network = regression(network, optimizer='momentum',

                        loss='categorical_crossentropy',

                        learning_rate=0.001)

    return network

训练阶段详细描述
1. 有监督预训练作者使用caffe框架利用ILSVRC 2012的数据集（应该就是imagenet吧）对网络模型进行了训练，使网络模型中的参数都是经过训练过的参数，而不是刚开始那样随机初始化的参数
2. 特定领域的fine-tuning 为了适应不同场合的识别需要，如VOC，对网络继续使用从VOC图片集上对region proposals归一化后的图片进行训练。网络只需要将最后的1000类的分类层换成21类的分类层（20个VOC中的类别和1个背景类），其他都不需要变。为了保证训练只是对网络的微调而不是大幅度的变化，网络的学习率只设置成了0.001。计算每个region proposal与人工标注的框的IoU，IoU重叠阈值设为0.5，大于这个阈值的作为正样本，其他的作为负样本，然后在训练的每一次迭代中都使用32个正样本（包括所有类别）和96个背景样本组成的128张图片的batch进行训练（这么做的主要原因还是正样本图片太少了）
3. 特定类别的分类器对每个类都训练一个线性的SVM分类器，训练SVM需要正负样本文件，可以想象得到，刚好包含某一类物体的region proposal应该是正样本，完全不包含的region proposal应该是负样本，但是对于部分包含某一类物体的region proposal该如何训练呢，作者同样是使用IoU阈值的方法，这次的阈值为0.3，计算每一个region proposal与标准框的IoU，大于这个阈值的作为正样本，小于的作为负样本。

4.最后放进SVM分类器进行分类

5.在分类的时候还会对框进行regression微调

这里微调采用的时非极大值抑制:
详细描述:
1. 对于每一个类别，使用为这一类训练的SVM分类器对提取的特征向量进行打分，得到测试图片中对于所有region proposals的对于这一类的分数，再使用贪心的非极大值抑制去除相交的多余的框。
2. 非极大值抑制（NMS）先计算出每一个bounding box的面积，然后根据score进行排序，把score最大的bounding box作为选定的框，计算其余bounding box与当前最大score与box的IoU，去除IoU大于设定的阈值的bounding box。

6.RCNN与它之前方法的比较

7.RCNN训练及测试总览图

step3：在读论文中时的疑问?

问题1：矫正是否在感兴趣区域？

答：不一定，假设感兴趣区域是围绕人的但是没包括人的头部。网络会推断人应该有头，所以网络应该把边界提高一点
问题2:经过select search后图片进去后，那框应该怎么画?

答:select search回一同返回图片和labels,该label包含了x,y,w,h(中心点坐标x,y以及图片的宽和高w,h)
问题3:图片变形后会影响网络提取特征吗?

答:可能回影响？后续在看后面论文观察
问题4：图片在测试阶段速度太慢怎么解决?

答:后续看论文

step4:引用及参考文献

paper:

https://www.computer.org/csdl/proceedings/cvpr/2014/5118/00/5118a580-abs.html

代码参考:

https://github.com/yangxue0827/RCNN

博客参考:

2021/2/6 20:42更新-->关于Bounding-box regression的理解

R-CNN学习笔记的更多相关文章

卷积神经网络(CNN)学习笔记1：基础入门
卷积神经网络(CNN)学习笔记1:基础入门 Posted on 2016-03-01 | In Machine Learning | 9 Comments | 14935 Vie ...
CNN学习笔记：批标准化
CNN学习笔记:批标准化 Batch Normalization Batch Normalization, 批标准化, 是将分散的数据统一的一种做法, 也是优化神经网络的一种方法. 在神经网络的训练过 ...
CNN学习笔记：目标函数
CNN学习笔记:目标函数分类任务中的目标函数目标函数,亦称损失函数或代价函数,是整个网络模型的指挥棒,通过样本的预测结果与真实标记产生的误差来反向传播指导网络参数学习和表示学习. 假设某分类任务共 ...
CNN学习笔记：卷积神经网络
CNN学习笔记:卷积神经网络卷积神经网络基本结构卷积神经网络是一种层次模型,其输入是原始数据,如RGB图像.音频等.卷积神经网络通过卷积(convolution)操作.汇合(pooling)操作 ...
CNN学习笔记：全连接层
CNN学习笔记:全连接层全连接层全连接层在整个网络卷积神经网络中起到“分类器”的作用.如果说卷积层.池化层和激活函数等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的特征表示映射到样 ...
CNN学习笔记：池化层
CNN学习笔记:池化层池化池化(Pooling)是卷积神经网络中另一个重要的概念,它实际上是一种形式的降采样.有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见 ...
CNN学习笔记：卷积运算
CNN学习笔记:卷积运算边缘检测卷积卷积是一种有效提取图片特征的方法.一般用一个正方形卷积核,遍历图片上的每一个像素点.图片与卷积核重合区域内相对应的每一个像素值乘卷积核 .内相对应点的权重,然 ...
CNN学习笔记：激活函数
CNN学习笔记:激活函数激活函数激活函数又称非线性映射,顾名思义,激活函数的引入是为了增加整个网络的表达能力(即非线性).若干线性操作层的堆叠仍然只能起到线性映射的作用,无法形成复杂的函数.常用的 ...
CNN学习笔记：梯度下降法
CNN学习笔记:梯度下降法梯度下降法梯度下降法用于找到使损失函数尽可能小的w和b,如下图所示,J(w,b)损失函数是一个在水平轴w和b上面的曲面,曲面的高度表示了损失函数在某一个点的值
CNN学习笔记：线性回归
CNN学习笔记:Logistic回归线性回归二分类问题 Logistic回归是一个用于二分分类的算法,比如我们有一张图片,判断其是否为一张猫图,为猫输出1,否则输出0. 基本术语进行机器学习,首 ...

随机推荐

CCF201512-2消除类游戏
问题描述消除类游戏是深受大众欢迎的一种游戏,游戏在一个包含有n行m列的游戏棋盘上进行,棋盘的每一行每一列的方格上放着一个有颜色的棋子,当一行或一列上有连续三个或更多的相同颜色的棋子时,这些棋子都被消 ...
小程序中webview内嵌h5页面
小程序内嵌h5页面跳转小程序指定页面, 需要引用 JSSDK: <script src="https://res.wx.qq.com/open/js/jweixin-1.3.2 ...
javascript，如何实现数据绑定
在三大框架抢占前端开发技术领域的时代,基本每个框架都是实现了数据绑定, 今天我们来解密一下数据绑定的原理, 原理关乎一个很关键的东西,Object.prototype.__defineSetter和 ...
Java多线程与线程池技术
一.序言 Java多线程编程线程池被广泛使用,甚至成为了标配. 线程池本质是池化技术的应用,和连接池类似,创建连接与关闭连接属于耗时操作,创建线程与销毁线程也属于重操作,为了提高效率,先提前创建好一批 ...
numpy---(精简)
numpy get started 导入numpy库, 并查看版本 import numpy as np np.__version__ '1.14.3' # pyplot显示画图, 数据分析与可视化 ...
SpringBoot注解自动扫描-底层实现
分析上文Spring Boot快速入门 @SpringBootApplication public class HelloWorldApplication { public static void m ...
Power App用到的一些函数
1.Filter([表名],查询条件&&查询条件),会返回一张表: 2.Search([表名], "值", "字段名"),会返回一张表: 3.L ...
面试官：ZAB协议是什么？
哈喽!大家好,我是小奇,一位不靠谱的程序员小奇打算以轻松幽默的对话方式来分享一些技术,如果你觉得通过小奇的文章学到了东西,那就给小奇一个赞吧文章持续更新一.前言这天是越来越热了,但是还是有很多 ...
HCIE笔记-第六节-CIDR与ICMP
项目部 58人地址:194.2.3.128 /26 研发部 100人地址: 194.2.3.0/25 市场部 27人地址: 194.2.3.192/27 财务部 15人地址:194.2.3.2 ...
Java语言学习day24--7月30日
###17创建子类对象过程的细节 * A 创建子类对象过程的细节 * 如果子类的构造方法第一行写了this调用了本类其他构造方法,那么super调用父类的语句还有吗? * 这时是没有的,因为this( ...

R-CNN学习笔记

R-CNN学习笔记

step1:总览

step2详细描述

1.select search算法

2.将图片输入神经网络前处理

3.将图片送入神经网络提取特征

4.最后放进SVM分类器进行分类

5.在分类的时候还会对框进行regression微调

6.RCNN与它之前方法的比较

7.RCNN训练及测试总览图

step3：在读论文中时的疑问?

step4:引用及参考文献

2021/2/6 20:42更新-->关于Bounding-box regression的理解

R-CNN学习笔记的更多相关文章

随机推荐

热门专题