【CV论文阅读】YOLO：Unified, Real-Time Object Detection

YOLO的一大特点就是快，在处理上可以达到完全的实时。原因在于它整个检测方法非常的简洁，使用回归的方法，直接在原图上进行目标检测与定位。

多任务检测：

网络把目标检测与定位统一到一个深度网络中，而且可以同时在原图上检测多个物体。步骤总结如下：

（1）把图片分割成S*S个方格，假如某个物体的中点落在其中一个方格，那么这个方格就对这个物体负责。这里说的物体的中点应该是指ground truth box中的物体的中心。

（2）对于每个格子，预测B个bounding box以及相应的confidence。Bounding box 的如何选择让我思考了一番，回忆起faster cnn中，在网络上预测bounding box会有比例与大小，但这里不需要，因为faster cnn中的box的选择其实算是regoin proposal的一部分，而在YOLO这个box直接通过回归方程计算出来的。在这里，confidence的计算包含两个部分：，当格子中没有物体，则Pr(Object) = 0，否则等于1。可以从式子中看到，它包含了是否存在物体以及预测的精确度两个方面的信息。除此以外，对于bounding box会有四个坐标即x、y、w、h。

（3）对于每个含有物体的格子预测C个类别的概率信息，而且每个格子还要预测B个box，这样最后会得到S*S*（B*5+C）的张量。

以上是根据ground truth box训练的部分。

（4）在test的时候，预测到了S*S*（B*5+C）的张量，把类别概率与confidence相乘，

就得到每个bounding box 的class – specific confidence分数

（5）根据以上得到的分数设置阈值进行过滤，然后执行NMS处理，得到最终检测结果。

网络结构：

网络结构与GoogLeNet非常相似，都使用了1*1的卷积核压缩信息，构造更加非线性的抽象特征，因为这相当于多层感知机的作用。论文中截图的结构，从通道数来看，中间应该缺少了一些卷积层。

一些细节问题：

预训练：使用imageNet预训练，网络结构是前20层网络加上一个平均池化层和一个全连接层。

预测：由于预测需要更加精细的像素，所以把输入扩展成448*448，并且增加了四个卷积层和两个全连接层。在最后一层预测中，需要预测概率和bounding box，这里把bounding box的预测归一化成0到1。

激活函数：最后一层的激活函数使用线性激活函数，而其他层使用leaky ReLU的激活函数：

误差传播：误差的计算采用简单的平方和误差函数。但是，从网络结构可以知道，预测概率的维数比预测bounding box的维数要高，而且，在图片中大多的格子是没有物体的，这会使得它们的confidence趋于0。它们的贡献过大，会使得网络无法收敛。

论文采用一个办法就是加权，赋予不同的权值，对于预测bounding box的，而对于没有object的格子的误差赋予权值。同时，对于大的box的小误差肯定要比小box的小误差影响更小，于是，采用对w,h,x,y取平方根的做法，因为平方根函数的图像随着x的增大会变得平缓。

此外（这里还没搞得太明白），一个网格可能会预测多个box，希望每个box负责专门的object的预测。方法是，对于一个物体的truth box，看哪个bounding box的IOU更大，就让它负责这个box。我估计这个负责的分配会随着每次的网络的更新会动态的改变选择。前提是，object的中心要落在那个格子里面，于是公式为：

其中对应格子i如果有物体，那相应的bounding box j负责这个物体的预测。表示格子i中是否有物体。

训练方法：使用随机梯度下降法，以及dropout的方法。

缺点：

（1）对于靠近的物体，还有很小的群体预测不好。这是因为格子预测的框属于一类的，而且往往格子较大，不能精细。

（2）对于不寻常的长宽比的物体，泛化能力偏弱

（3）误差函数影响定位的精确性。

【CV论文阅读】YOLO：Unified, Real-Time Object Detection的更多相关文章

论文阅读 | FCOS: Fully Convolutional One-Stage Object Detection
论文阅读——FCOS: Fully Convolutional One-Stage Object Detection 概述目前anchor-free大热,从DenseBoxes到CornerNet. ...
论文阅读之　DECOLOR: Moving Object Detection by Detecting Contiguous Outliers in the Low-Rank Representation
DECOLOR: Moving Object Detection by Detecting Contiguous Outliers in the Low-Rank Representation Xia ...
论文阅读：Adaptive NMS: Refining Pedestrian Detection in a Crowd
论文阅读:Adaptive NMS: Refining Pedestrian Detection in a Crowd 2019年04月11日 23:08:02 Kivee123 阅读数 836 ...
【CV论文阅读】 Fast RCNN + SGD笔记
Fast RCNN的结构: 先从这幅图解释FAST RCNN的结构.首先,FAST RCNN的输入是包含两部分,image以及region proposal(在论文中叫做region of inter ...
论文阅读：Review of Visual Saliency Detection with Comprehensive Information
这篇文章目前发表在arxiv,日期:20180309. 这是一篇针对多种综合性信息的视觉显著性检测的综述文章. 注:有些名词直接贴原文,是因为不翻译更容易理解.也不会逐字逐句都翻译,重要的肯定不会错过 ...
[论文理解] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 简介 Faster R-CNN是很经典的t ...
论文笔记：Structure Inference Net: Object Detection Using Scene-Level Context and Instance-Level Relationships
Structure Inference Net: Object Detection Using Scene-Level Context and Instance-Level Relationships ...
[论文理解]Focal Loss for Dense Object Detection（Retina Net）
Focal Loss for Dense Object Detection Intro 这又是一篇与何凯明大神有关的作品,文章主要解决了one-stage网络识别率普遍低于two-stage网络的问题 ...
【CV论文阅读】Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
由RCNN到FAST RCNN一个很重要的进步是实现了多任务的训练,但是仍然使用Selective Search算法来获得ROI,而FASTER RCNN就是把获得ROI的步骤使用一个深度网络RPN来 ...

随机推荐

400 Nth Digit 第N个数字
在无限的整数序列 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, ...中找到第 n 个数字.注意:n 是正数且在32为整形范围内 ( n < 231).示例 1:输入:3 ...
hdu 4104 Discount
http://acm.hdu.edu.cn/showproblem.php?pid=4104 一开始还以为这题是背包,然后优化下这个背包,但是一直都优化不出来. 然后题解是直接模拟而已,唉先从小到大 ...
hbase优化小结
目录: 1,背景 2,GC 3,hbase cache 4,compaction 5,其他 1,背景项目组中,hbase主要用来备份mysql数据库中的表.主要通过接入mysql binlog,经s ...
Spring Boot (33) 分布式锁
上一篇中使用的Guava Cache,如果在集群中就不可以用了,需要借助Redis.Zookeeper之类的中间件实现分布式锁. 导入依赖在pom.xml中需要添加的依赖包:stater-web.s ...
esp8266 SOC方案经过半年沉淀之后再度重启二
2018-08-2014:16:10 以下是输出控制 PIN_FUNC_SELECT(PERIPHS_IO_MUX_GPIO0_U, FUNC_GPIO0); GPIO_OUTPUT_SET ...
Hive扩展功能(二)--HWI接口
软件环境: linux系统: CentOS6.7 Hadoop版本: 2.6.5 zookeeper版本: 3.4.8 主机配置: 一共m1, m2, m3这五部机, 每部主机的用户名都为centos ...
WindowsForms获取服务名称
StringBuilder sb = new StringBuilder(); ServiceController[] services = ServiceController.GetServices ...
HFS模板开发
痉挛模板, 节, 符号 & 变量帮助需要更多帮助吗?看看下面这些链接-模板是模型痉挛用于构建 HTML 页面. -它分为几个部分, 每个部分描述最终 HTML 页面的一部分. -此模板必须 ...
Apache 和 Nginx 下的 URL 重写
URL 重写和重定向 URL 重写是将页面映射到本站另一页面, 而重定向则是将页面映射到另一主机(域名). 其中临时重定向(R=302)和永久重定向(R=301)都是亲搜索引擎的, 是 SEO 的重要 ...
Python isdigit() 方法检测字符串是否只由数字组成
Python isdigit() 方法检测字符串是否只由数字组成

【CV论文阅读】YOLO：Unified, Real-Time Object Detection

【CV论文阅读】YOLO：Unified, Real-Time Object Detection的更多相关文章

随机推荐

热门专题