前面介绍的R-CNN系的目标检测采用的思路是:首先在图像上提取一系列的候选区域,然后将候选区域输入到网络中修正候选区域的边框以定位目标,对候选区域进行分类以识别。虽然,在Faster R-CNN中利用RPN网络将候选区域的提取以放到了CNN中,实现了end-to-end的训练,但是其本质上仍然是提取先提取候选区域,然后对候选区域识别,修正候选区域的边框位置。这称为tow-stage的方法,虽然在精度已经很高了,但是其速度却不是很好。造成速度不好的主要原因就是候选区域的提取,这就需要一种网络能够直接预测出图像中目标的位置,中间不需要候选区域的计算,这就是one-stage

YOLO系就是one-stage目标检测的一种,其全名You only look once很形象,只需要将图片输入到网络中就预测中其中目标的bounding box以及bounding box所属的类别。相比R-CNN,YOLO损失了一定的精度,但是其有点就是速度快。

YOLO V1

YOLO V1将目标检测定义为一个回归问题,从图像像素信息直接得到目标的边框以及所属类别的概率,其有以下的优点:

  • 快。其整个网络结构就是解决回归问题,很快。
  • 在做predict的时候,使用的一整张图像的全局信息。two-stage的方法,每次只是“看到”图像的一块区域,YOLO 一次“看”一整张图像,所以它可以将目标整个的外观信息以及类别进行编码,目前最快最好的Fast R-CNN,较容易误将图像中的 background patches (背景的一个小块)看成是物体,因为它看的范围比较小。YOLO 的 background errors(背景错误) 比 Fast R-CNN 少一半多。
  • YOLO得到的目标的特征表示更容易泛化

YOLO 和R-CNN性能的对比

YOLO的也有一定的缺点,其准确度落后于Faster R-CNN,并且由于其使用比较粗糙的网格来划分原图,导致其对小目标的检测效果不是很好。

主要思路

相对于R-CNN系首先从原图中计算出一系列的候选区域,YOLO则使用简单的方法,首先将图像划分为\(S\times S\)(论文中\(S = 7\))的网格,如果某个目标的中心位于一个grid cell中,则该grid cell就负责检测这个目标。

在YOLO网络中,目标的坐标信息是通过相对于某个grid cell左上角的偏移来表示的,目标的宽和高是用原图的宽和高占比表示的。 这就是这里为什么会说,如果某个目标的中心位于一个grid cell中,则该grid cell就负责检测这个目标,在做边框回归的时候,其GT就是该grid cell。

上面提到如果某个目标的中心位于一个grid cell中,则该grid cell就负责检测这个目标,也就是说在YOLO中,grid cell设计为可以代表目标,在网络中也是针对grid cell进行处理的。 在每个grid cell中预测出来\(B\)(\(B = 2\)个bounding box,而且要为每个预测出来的bounding box打个分数,来表示该bounding box是否包含目标以及该bbox作为目标边框的可信度,这个分数称为Confidence。Confidence 的定义如下:

\[Confidence = Pr(object) \cdot IoU_{pred}^{truth}
\]

其中,\(Pr(object)\)为bbox包含目标的概率(bbox存在目标则$Pr(object) =1 \(,不存在目标则\)Pr(object) = 0\(;\)IoU_{pred}^{truth}$表示预测出来的bbox和Ground Truth之间的IoU。 也就是说,如果bbox不含目标则其confidence = 0,包含目标的话Confidence就是bbox和Ground Truth之间的IoU。

这样,通过每个grid cell预测出来的bbox可由一个五元组表示\((x,y,w,h,Confidence)\),其中\((x,y)\)表示bbox的中心相对该grid cell左上角的偏移量,使用grid cell的长宽为比例,将其值归一化到\([0,1]\)之间;\((w,h)\)为bbox的宽度和长度,以图像的宽度和长度归一化到\([0,1]\)之间;\(C\)就是上面提到的Confidence,其值也是在\([0,1]\)之间。 这样每个bbox可以使用五元组\((x,y,w,h,Confidence)\)表示,并且其值都是在\([0,1]\)之间。

以grid cell为准预测出来的bbox表示了目标的边框信息,并不能判断出来其中包含的目标是属于哪一个类。所以YOLO网络还为每一个grid cell预测出\(C\)个conditional class probability(条件类别概率):

\[P(class_i | object)
\]

即在一个grid cell中有一个Object的前提下,它属于某个类的概率。只为每个grid cell预测一组类概率,而不考虑框的数量。

类别概率\(P(class_i | object)\)是对于某个grid cell的,表示该grid cell能够预测一个目标的条件下,其目标的属于某个类的概率;而bbox的confidence表示的是,包含目标的可行性。 将这两个值相乘,就可以得到bbox中包含的目标的的类别的概率了。

所以在测试阶段,将grid cell的\(P(class_i | object)\)和以该grid cell为准预测出来bbox的confidence相乘

\[P(class_i | object) \cdot P(object) \cdot IoU_{pred}^{truth}
\]

该值就能反应出bbox包含某一个具体类别的目标的可信度。

在YOLO论文中,使用VOC的数据集,即有20个类别,将图像划分为\(7 \times 7\)的网格,每个grid cell预测出2个bbox,因此最终输出的数据张量尺寸为\(7 \times 7 \times 30\)。(\(S \times S \times (B \times 5 + C)\))。

上图表示了YOLO网络针对某个grid cell的输出。

  • 由于YOLO的最后输出层是全连接层,所以只能处理固定尺寸的图像\(448 \times 448 \times 3\)
  • 虽然每个格子可以预测B个bounding box,但是最终只选择只选择IOU最高的bounding box作为物体检测输出,即每个格子最多只预测出一个物体。当物体占画面比例较小,如图像中包含畜群或鸟群时,每个grid

    cell 负责多个物体,但却只能检测出其中一个。这是YOLO方法的一个缺陷

网络结构

YOLO使用CNN来提取图像的特征,最后使用全连接层做回归预测,并且借鉴GooLeNet的思路,使用了\(1 \times 1\)卷积核。

YOLO由24个卷积层和2个全连接层组成,最终的输出为\(7 \times 7 \times 30\)的张量,也就是针对每一个grid cell YOLO网络都输出了一个30维的向量,这个30维的向量就包括上面提到的各种信息:grid cell为基准预测出来的两个bbox五元组,以及针对grid cell的预测某个类别的条件概率。具体如下:

目标函数

YOLO网络的输出实际上包含了三部分信息:bbox的位置信息,每个bbox的confidence以及每个grid cell的类别条件概率。 目标函数也就包含的三个部分:

\[\begin{align*}
& \lambda_{coord}\sum_{i=0}^{S^2}\sum_{j=0}^{B}1_{ij}^{obj}\left(x_i - \hat{x_i})^2 + (y_i - \hat{y_i)^2}) \right] + \lambda_{coord}\sum_{i=0}^{S^2}\sum_{j=0}^{B}1_{ij}^{obj} \left[(\sqrt{w_i} - \sqrt{\hat{w_i}})^2 + (\sqrt{h_i} - \sqrt{\hat{h_i}})^2 \right] \\& + \sum_{i=0}^{S^2}\sum_{j=0}^{B}1_{ij}^{obj}(C_i - \hat{C_i})^2 + \lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^{B}1_{ij}^{noobj}(C_i - \hat{C_i})^2 \\& +
\sum_{i=0}^{S^2}1_{i}^{obj}\sum_{c \in classes}(p_i(c) - \hat{p_i)(c))^2})
\end{align*}
\]

很长的损失函数,首先来看两个超参\(\lambda_{coord}\)和\(\lambda_{noobj}\).

由于要将bbox的位置信息,confidence以及类别的概率放到同一个目标函数中,而且各个分量占的输出数据的多少也相差很多(位置信息只占了8个维度,而类别则占了20个维度),如果只是简单的使用方差作为损失则很难对三个要优化的目标做好平衡:

  • 8维的位置损失和20维的分类损失同等重要显然是不合理的
  • 如果一个grid cell中没有object(一幅图中这种grid cell很多),那么就会将这些grid cell中的box的confidence 置为0,相比于较少的有object的grid cell,这种做法是overpowering的,这会导致网络不稳定甚至发散。

针对上述问题,损失函数中使用权重来解决。

  • 为了表示8维的位置损失的重要性,给位置损失前面设置个大的权重,论文中设置的是\(\lambda_{coord}= 5\)

  • 为了平衡没有目标的grid cell,给没有目标的损失设较小的权重,论文中设置的是\(\lambda_{noobj} = 0.5\)

  • 公式中的第一行表示bbox位置损失。关于bbox位置损失有两点,

    • \(1_{ij}^{obj}\)第\(i\)个grid的第\(j\)个bbox是否负责该object的检测(与该object的ground truth的IoU最大的bbox负责该object的检测)。如果负责object的检测,则\(1_{ij}^{obj} = 1\),否则为0,不参与位置损失的计算。
    • 因为目标的大小不同,其位置偏移量也不能同等对待。对于小的物体对偏移量的容忍度则较小,而大的物体其对偏移的容忍则大一些,也是是不同大小的目标,其偏移量的损失也不能一概而论。为了平衡这个问题,YOLO使用了一个比较巧妙的方法,不是直接使用预测目标的宽和高计算损失,而是使用其平方根\((\sqrt{w_i} - \sqrt{\hat{w_i}})^2 + (\sqrt{h_i} - \sqrt{\hat{h_i}})^2\),如下图 相同的位置偏移,反应在小目标的偏移损失比大目标预测的bbox要大。
  • 公式的第二行是bbox的confidence的损失。 YOLO中一个目标被一个grid cell负责检测,而同一个grid cell生成的\(B\)个bbox,也是和目标的 ground truth 的IoU负责。这样就会有大量的bbox是不负责检测目标的,也就是\(1_{ij}^{obj} = 0,1_{ij}^{noobj}=1\),而且由于包含目标的bbox较不包含目标的bbox要多很多,这里使用权值\(\lambda_{noobj}\)作为平衡,论文中使用\(\lambda_{noobj}=0.5\)

  • 公式的第三行是grid cell的类别条件概率损失. \(1_{i}^{obj}\)表示第\(i\)个grid cell是否负责一个目标的检测。

下图能更好的解释YOLO损失函数的意义

测试

输入图片,网络会按照与训练时相同的分割方式将测试图片分割成\(S \times S\)的网格,因此,划分出来的每个网格预测的class信息和Bounding box预测的confidence信息相乘,就得到了每个Bounding box的class-specific confidence score,即得到了每个Bounding box预测具体物体的概率和Ground Truth重叠的好坏。

对于论文中,图片划分为\(7 \times 7\)的网格,最终会得到98个bbox。要分类的目标有20个类给,这样每个bbox对得到20个分数,表示该bbox在20个对象的得分。根据这20个得分情况,对98个bbox进行最大值抑制NMS,选出每个类别的最终bbox。

NMS的步骤如下:

1. 设置一个Score的阈值(0.2),低于该阈值的候选对象排除掉(将该Score设为0)。
2. 遍历20个对象(找到每个对象的最好的bbox)
2.1 遍历所有的98个bbox
2.1.1 选择socre最大的bbox添加到输出列表中
2.1.2 将计算余下的bbox的和score最大的bbox的IoU,如果大于设定的IoU阈值(0.5),则将该bbox的socre 设置为0.
2.1.3 从余下的bbox中选择score最大的,重复上面的过程,直到所有的bbox要么在输出列表中,要不其socre为0
2.2 输出列表中bbox即为当前类的预测bbox

summary

YOLO是one-stage的目标检测网络,其优点:

  • 使用整幅图片进行预测,视野大,召回率低,表现为背景误检率低。
  • 泛化能力强,对其他类的东西,训练后效果也是挺好的

缺点:

  • 一个网格中只预测了两个框,并且只负责一类,YOLO对相互靠的很近的物体,还有很小的群体检测效果不好。
  • 当同一类物体出现的不常见的长宽比和其他情况时泛化能力偏弱
  • 大边界框的小误差通常是良性的,但小边界框的小误差对IOU的影响要大得多。但YOLO会同样的对待小边界框与大边界框的误差,虽然做了一定的处理,但是物体的大小对仍有很大的影响。

目标检测之YOLO V1的更多相关文章

  1. 目标检测:YOLO(v1 to v3)——学习笔记

    前段时间看了YOLO的论文,打算用YOLO模型做一个迁移学习,看看能不能用于项目中去.但在实践过程中感觉到对于YOLO的一些细节和技巧还是没有很好的理解,现学习其他人的博客总结(所有参考连接都附于最后 ...

  2. 第三十六节,目标检测之yolo源码解析

    在一个月前,我就已经介绍了yolo目标检测的原理,后来也把tensorflow实现代码仔细看了一遍.但是由于这个暑假事情比较大,就一直搁浅了下来,趁今天有时间,就把源码解析一下.关于yolo目标检测的 ...

  3. 深度学习与CV教程(13) | 目标检测 (SSD,YOLO系列)

    作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-det ...

  4. 【转】目标检测之YOLO系列详解

    本文逐步介绍YOLO v1~v3的设计历程. YOLOv1基本思想 YOLO将输入图像分成SxS个格子,若某个物体 Ground truth 的中心位置的坐标落入到某个格子,那么这个格子就负责检测出这 ...

  5. 【目标检测】YOLO:

    PPT 可以说是讲得相当之清楚了... deepsystems.io 中文翻译: https://zhuanlan.zhihu.com/p/24916786 图解YOLO YOLO核心思想:从R-CN ...

  6. 目标检测算法YOLO算法介绍

    YOLO算法(You Only Look Once) 比如你输入图像是100x100,然后在图像上放一个网络,为了方便讲述,此处使用3x3网格,实际实现时会用更精细的网格(如19x19).基本思想是, ...

  7. 目标检测之YOLO V2 V3

    YOLO V2 YOLO V2是在YOLO的基础上,融合了其他一些网络结构的特性(比如:Faster R-CNN的Anchor,GooLeNet的\(1\times1\)卷积核等),进行的升级.其目的 ...

  8. 第三十五节,目标检测之YOLO算法详解

    Redmon, J., Divvala, S., Girshick, R., Farhadi, A.: You only look once: Unified, real-time object de ...

  9. 小白也能弄懂的目标检测之YOLO系列 - 第一期

    大家好,上期分享了电脑端几个免费无广告且实用的录屏软件,这期想给大家来讲解YOLO这个算法,从零基础学起,并最终学会YOLOV3的Pytorch实现,并学会自己制作数据集进行模型训练,然后用自己训练好 ...

随机推荐

  1. HTML5学习系列之表单与文件

    article元素 article元素代表文档.页面或应用程序中独立的.完整的.可以独自被外部引用的内容.它可以是一篇博客或报刊中的文章.一篇论坛帖子.一段用户评论或独立的插件,或者其他任何独立的内容 ...

  2. 4sumii

    problem description: there is four number list named A,B,C,D; now you should out put the num of  tup ...

  3. MySQL的变量分类总结

    在MySQL中,my.cnf是参数文件(Option Files),类似于ORACLE数据库中的spfile.pfile参数文件,照理说,参数文件my.cnf中的都是系统参数(这种称呼比较符合思维习惯 ...

  4. 通过数据流处理-微信小程序生成临时二维码

    1.小程序代码 onLoad: function (options) { var that = this api.Login(function (login) { var codeModel = ne ...

  5. .NET开发微信小程序-Template模块开发

    1.添加一个文件目录,里面放模板信息 例:我在根目录添加一个文件夹:template 然后在这个文件夹下面添加相应的页面.比如我添加一个promodel.wxml文件.主要是放商品相关的模块信息(注: ...

  6. 使用FluentScheduler和IIS预加载在asp.net中实现定时任务管理

    FluentScheduler介绍 github地址:https://github.com/fluentscheduler/FluentScheduler FluentScheduler是一个简单的任 ...

  7. eclipse maven 构建简单springmvc项目

    环境:eclipse Version: Oxygen.3a Release (4.7.3a) 创建maven Project项目,目录结构 修改工程的相关编译属性 修改pop.xml,引入spring ...

  8. 网络编程之select

    一.select函数简介 select一般用在socket网络编程中,在网络编程的过程中,经常会遇到许多阻塞的函数,网络编程时使用的recv, recvfrom.connect函数都是阻塞的函数,当函 ...

  9. Jacob工具类使用文件互转服务 word转html html转excel word转pdf excel转pdf ppt转pdf

    前提条件  必须安装MS office 1.jdk使用jdk1.8 2.jacob.dll放在..\jdk1.8\jre\bin目录下 3.eclipse的jre版本要和jdk一致,window-&g ...

  10. 分布式计算框架Gearman原理详解

    什么是Gearman? Gearman提供了一个通用的应用程序框架,用于将工作转移到更适合于工作的其他机器或流程.它允许你并行工作,负载平衡处理,并在语言间调用函数.它可用于从高可用性网站到传输数据库 ...