YOLO理解
一、YOLO v1
1、网络结构
(1)最后一层使用线性激活函数;
(2)其他各层使用leaky ReLU的激活函数:
2、Training
(1) 将原图划分为SxS的网格。如果一个目标的中心落入某个格子,这个格子就负责检测该目标,即Pr(object)=1。S取7;
(2) 每个网格要预测C个类别概率Pr(classi|object),C为20(不需要表示背景这一类,因为这20类概率都为0即表示为背景)。用于训练用的每个网格类别标签为,如果实际bounding box的中心在该网格上,且是第i类,则对应位置的概率为1,其他类别概率为0,否则C个类的概率都为0;
(3) 每个网格要预测B个bounding box:(x, y, w, h),论文中B取2。
关于(x,y,w,h)的定义不多说,看如下例子:
当某个格子含有object时,标签按上图方式计算。
(4)每个网格还要预测B个condidence:
如果格子内有物体,则Pr(Object)=1,此时置信度等于IoU。如果格子内没有物体,则Pr(Object)=0,此时置信度为0。当格子内有物体标签为1,没物体标签为0。(不知理解得是否正确)
(5)由于输入图像被分为SxS网格,每个网格包括B个bounding boxes,每个box有5个预测量:(x, y, w, h, confidence),每个网格还有预测C个类别的概率,所以网络输出是SxSx(5xB+C)大小。
(6)损失函数:
这里注意以下几点:
1)表示第i个网格,第j个bounding box含有object,
表示第i个网格,第j个bounding box不含有object,
表示第i个网格含有object;
2)由于绝大部分网格中不包含目标,导致绝大部分box的confidence=0,所以在设计confidence误差时同等对待包含目标和不包含目标的box也是不合理的,否则会导致模型不稳定。所以在预测误差中乘以惩罚权重λnoobj=0.5。除此之外,同等对待4个值(x, y, w, h)的坐标预测误差与1个值的conference预测误差也不合理,所以在坐标预测误差误差之前乘以权重λcoord=5。
3)对于大的box的小误差肯定要比小box的小误差影响更小,于是,采用对w,h,x,y取平方根的做法,因为平方根函数的图像随着x的增大会变得平缓。
4)加入了这一项,有这个好处,可以让没有物体的情况下confidence的输出预测值为较低(接近0)。也就是说,上式的损失函数,可以同时训练让confidence高与让confidence低两种情况。
5)我们发现每一项loss的计算都是L2 loss,即使是分类问题也是。所以说yolo是把分类问题转为了回归问题。
3、Inference
(1)在test的时候,每个网格预测的class信息和B个bounding box预测的confidence信息相乘,就得到每个bounding box的class-specific confidence score:
等式左边第一项就是每个网格预测的类别概率,第二三项就是每个bounding box预测的confidence。这个乘积即表示box属于某一类的概率。
(2)得到每个box的class-specific confidence score以后,设置阈值,滤掉得分低的boxes,对保留的boxes进行NMS处理,就得到最终的检测结果。
(3)注意:
1)由于输出层为全连接层,因此在检测时,YOLO训练模型只支持与训练图像相同的输入分辨率。
2)虽然每个格子可以预测B个bounding box,但是最终只选择只选择IOU最高的bounding box作为物体检测输出,即每个格子最多只预测出一个物体。当物体占画面比例较小,如图像中包含畜群或鸟群时,每个格子包含多个物体,但却只能检测出其中一个。这是YOLO方法的一个缺陷。
4、疑惑及解答
(1)训练时7x7xB个bbox的初始位置怎么确定?
是根据各层的权重得到的,各层权重是随机初始化的,所以bbox的初始置是随机的。但bbox的中心点都在对应网格内。
(2)训练时,当某个网格始终没有被检测物体的中心点选中,是不是该网格的对应的参数永远不会被训练?
不会,因为在最后一层卷积层之后连接了两层全连接层,其他网格也会对当前网格有有影响的。
参考:
yolo回归型的物体检测 - Jinlong_Xu的博客 - CSDN博客 https://blog.csdn.net/jinlong_xu/article/details/77888100
理解 YOLO 目标检测-图文外翻-AI研习社 https://ai.yanxishe.com/page/TextTranslation/1168
end
YOLO理解的更多相关文章
- 理解 YOLO
YOLO: 1. YOLO的网络结构 YOLO v1 network (没看懂论文上的下图,看下面这个表一目了然了) 24层的卷积层,开始用前面20层来training, 图片是224x224的,然后 ...
- YOLO V3论文理解
YOLO3主要的改进有:调整了网络结构:利用多尺度特征进行对象检测:对象分类用Logistic取代了softmax. 1.Darknet-53 network在论文中虽然有给网络的图,但我还是简单说一 ...
- YOLO V2论文理解
概述 YOLO(You Only Look Once: Unified, Real-Time Object Detection)从v1版本进化到了v2版本,作者在darknet主页先行一步放出源代码, ...
- (转载)YOLO配置文件理解
YOLO配置文件理解 转载自 [net] batch=64 每batch个样本更新一次参数. subdivisions=8 如果内存不够大,将batch分割为subdivisions个子batch,每 ...
- YOLO V1损失函数理解
YOLO V1损失函数理解: 首先是理论部分,YOLO网络的实现这里就不赘述,这里主要解析YOLO损失函数这一部分. 损失函数分为三个部分: 代表cell中含有真实物体的中心. pr(object) ...
- 快速理解YOLO目标检测
YOLO(You Only Look Once)论文 近些年,R-CNN等基于深度学习目标检测方法,大大提高了检测精度和检测速度. 例如在Pascal VOC数据集上Faster R-CNN的mAP达 ...
- YOLO配置文件理解
[net] batch=64 每batch个样本更新一次参数. subdivisions=8 如果内存不够大,将batch分割为subdivisions个子batch,每个子batch的大小为batc ...
- Pytorch从0开始实现YOLO V3指南 part1——理解YOLO的工作
本教程翻译自https://blog.paperspace.com/how-to-implement-a-yolo-object-detector-in-pytorch/ 视频展示:https://w ...
- 对yolo与fasterrcnn anchors的理解
yolo: 通过聚类产生5个不同比例的anchors.最后一个特征层的输出(x,y,w,h)与这些不同比列的相乘,将网络层的输出转化为bbox(小尺寸),再通过(H,W)还原成原图大小.一共有5个bb ...
随机推荐
- 使用EFCore,手动创建SQLLite数据库
有时候我们需要在代码中动态生成一个sqllite数据库文件,可以按照以下代码完成, static void Main(string[] args) { MyContext context = new ...
- red hat下Oracle服务自启动的方法
setup .rc.local 和chkconfig三种方式都可以设置 第一种)输入#setup指令进入系统服务菜单,选择你想启动的服务比如oralce,然后重起机器或者/etc/rc.d./init ...
- Vue组件中的问题
错误信息: 提示信息含义:组件模板中只能包含一个根元素 解决办法:在模板元素内部增加块级元素div将这些元素标签包裹起来,如图所示
- SpringBoot+POI报表批量导出
由于servletResponse 获取的输出流对象在一次请求中只能输出一次,所以要想实现批量导出报表,需要将excel文件打包成zip格式然后输出. 好了,废话不多说,上代码. 1. 首先,需要导入 ...
- javamail发邮件
使用JavaMail发送一封简单邮件的步骤:(1)创建代表邮件服务器的网络连接信息的Session对象.(2)创建代表邮件内容的Message对象(3)创建Transport对象.连接服务器.发送Me ...
- JDBC中执行SQL语句的方式
一.执行DDL.DML语句 DDL.DML分别表示数据库定义语言.数据库操纵语言,操控这两种语言应该使用Statement对象的executeUpdate方法. 代码如下: public static ...
- FlappyBirdWeb素材资源
https://pan.baidu.com/s/1UeNmhnmK4RInmfiEduPrAQ 先上网盘地址 https://github.com/JIANGYUJING1995/FlappyBird ...
- Cartographer安装
安装过程: 官方安装教程: https://google-cartographer-ros.readthedocs.io/en/latest/index.html # Install wstool a ...
- 20164322 韩玉婷-----Exp6 信息搜索与漏洞扫描
1.实践目标 掌握信息搜集的最基础技能与常用工具的使用方法. 2.实践内容 (1)各种搜索技巧的应用 (2)DNS IP注册信息的查询 (3)基本的扫描技术:主机发现.端口扫描.OS及服务版本探测.具 ...
- Favorite Donut(HDU 5442)最小表示法+二分
题目给出一个字符串,由a~z表示甜度,随字典序增大,字符串首尾相连形成一个圈,要求从一个位置开始字典序最大的字符串,输出位置以及是顺时针还是逆时针表示.顺时针用0表示,逆时针用1表示. 此题只需要查找 ...