前言

这是github上的一个项目YOLO_v3_tutorial_from_scratch,它还有相应的blog对其详细的解读。机器之心翻译了他的tutorial:从零开始PyTorch项目:YOLO v3目标检测实现。教程中的内容就不再赘述,写这篇博客的目的在于记录自己在学习这篇教程时的笔记。

本教程包含五个部分:

  1. YOLO 的工作原理

  2. 创建 YOLO 网络层级

  3. 实现网络的前向传播

  4. objectness 置信度阈值和非极大值抑制

  5. 设计输入和输出管道

1. YOLO 的工作原理

2. 创建 YOLO 网络层级

这一部分要求读者已经基本了解 YOLO 的运行方式和原理,以及关于 PyTorch 的基本知识,例如如何通过 nn.Module、nn.Sequential 和 torch.nn.parameter 等类来构建自定义的神经网络架构。

Pytorch的基本知识可以看B站小土堆的PyTorch深度学习快速入门教程。代码:https://github.com/xiaotudui/PyTorch-Tutorial

一个简单的Pytorch神经网络model如下:

pytorch-tutorial/src/model.py

# -*- coding: utf-8 -*-
# 作者:小土堆
# 公众号:土堆碎念
import torch
from torch import nn # 搭建神经网络
class Tudui(nn.Module):
def __init__(self):
super(Tudui, self).__init__()
self.model = nn.Sequential(
nn.Conv2d(3, 32, 5, 1, 2),
nn.MaxPool2d(2),
nn.Conv2d(32, 32, 5, 1, 2),
nn.MaxPool2d(2),
nn.Conv2d(32, 64, 5, 1, 2),
nn.MaxPool2d(2),
nn.Flatten(),
nn.Linear(64*4*4, 64),
nn.Linear(64, 10)
) def forward(self, x):
x = self.model(x)
return x if __name__ == '__main__':
tudui = Tudui()
input = torch.ones((64, 3, 32, 32))
output = tudui(input)
print(output.shape)

其他类和函数等到后续用到的时候再详细说。

2.1.配置文件

我们将使用官方的 cfg 文件构建网络,它是由 YOLO 的作者发布的。

yolov3.cfg: https://github.com/pjreddie/darknet/blob/master/cfg/yolov3.cfg

2.1.1配置文件解读

yolov3.cfg主要有以下几块,[net],[convolutional],[shortcut],[yolo]

net层

配置整个网络

[net]                  ★ net block

# Testing              ★ 注释方式:# xxx ,,在解析cfg的文件时会忽略该行。
# batch=1 ★ 这里的注释是说在Testing模型的时候设置batch=1,subdivisions=1。因为这样可以避免一些错误。
# subdivisions=1 # Training ★ training模型的配置 batch=64 ★ 这儿batch与机器学习中的batch有少许差别,仅表示网络积累多少个样本后进行一次反向传播(backforward propagation,BP) subdivisions=16 ★ 这个参数表示将一个batch的图片分sub次完成网络的前向传播
★★ 敲黑板:在Darknet中,batch和sub是结合使用的,例如这儿的batch=64,sub=16表示训练的过程中将一次性加载64张图片进内存,然后分16次完成前向传播,意思是每次4张,前向传播的循环过程中累加loss求平均,待64张图片都完成前向传播后,再一次性后传更新参数,subdivisions越大,可以减轻显卡压力
★★★ 调参经验:sub一般设置16,不能太大或太小,且为8的倍数,其实也没啥硬性规定,看着舒服就好。batch的值可以根据显存占用情况动态调整,一次性加减sub大小即可,通常情况下batch越大越好,还需注意一点,在测试的时候batch和sub都设置为1,避免发生神秘错误! width=608 ★ 网络输入的宽width height=608 ★ 网络输入的高height
★★敲黑板:width和height一定要为32的倍数,否则不能加载网络
★★★ 提示:width也可以设置为不等于height,通常情况下,width和height的值越大,对于小目标的识别效果越好,但受到了显存的限制,读者可以自行尝试不同组合。
channels=3 ★ 网络输入的通道数channels。若为灰度图,则chennels=1,另外还需修改/scr/data.c文件中的load_data_detection函数;若为RGB则 channels=3 ,无需修改/scr/data.c文件
-------
data load_data_detection(int n, char **paths, int m, int w, int h, int boxes, int classes, float jitter, float hue, float saturation, float exposure)
{
char **random_paths = get_random_paths(paths, n, m);
int i;
data d = {0};
d.shallow = 0; d.X.rows = n;
d.X.vals = calloc(d.X.rows, sizeof(float*));
d.X.cols = h*w; //灰阶图
//d.X.cols = h*w*3; //RGB图
------- momentum=0.9 ★ 动量DeepLearning中最优化方法中的动量参数,这个值影响着梯度下降到最优值得速度 decay=0.0005 ★ 权重衰减正则项,防止过拟合 angle=0 ★ 数据增强参数,通过旋转角度来生成更多训练样本 saturation = 1.5 ★ 数据增强参数,通过调整饱和度来生成更多训练样本 exposure = 1.5 ★ 数据增强参数,通过调整曝光量来生成更多训练样本 hue=.1 ★ 数据增强参数,通过调整色调来生成更多训练样本 learning_rate=0.001 ★ 学习率决定着权值更新的速度,设置得太大会使结果超过最优值,太小会使下降速度过慢。如果仅靠人为干预调整参数,需要不断修改学习率。刚开始训练时可以将学习率设置的高一点,而一定轮数之后,将其减小在训练过程中,一般根据训练轮数设置动态变化的学习率。
刚开始训练时:学习率以 0.01 ~ 0.001 为宜。一定轮数过后:逐渐减缓。接近训练结束:学习速率的衰减应该在100倍以上。学习率的调整参考https://blog.csdn.net/qq_33485434/article/details/80452941 ★★★ 学习率调整一定不要太死,实际训练过程中根据loss的变化和其他指标动态调整,手动ctrl+c结束此次训练后,修改学习率,再加载刚才保存的模型继续训练即可完成手动调参,调整的依据是根据训练日志来,如果loss波动太大,说明学习率过大,适当减小,变为1/5,1/10均可,如果loss几乎不变,可能网络已经收敛或者陷入了局部极小,此时可以适当增大学习率,注意每次调整学习率后一定要训练久一点,充分观察,调参是个细活,慢慢琢磨 ★★ 一点小说明:实际学习率与GPU的个数有关,例如你的学习率设置为0.001,如果你有4块GPU,那真实学习
率为0.001*4(一种说法)
learning_rate=0.001
一块gpu跑的时候,打印出来的学习率0.001
2 块gpu跑的时候,打印出来的学习率0.002
4 块gpu跑的时候,打印出来的学习率0.004
所以应该是相乘的关系,而不是相除的关系(另一种说法) burn_in=1000 ★ 在迭代次数小于burn_in时,其学习率的更新有一种方式,大于burn_in时,才采用policy的更新方式 max_batches = 500200 ★ 训练次数达到max_batches后停止学习,一次为跑完一个batch policy=steps ★ 学习率调整的策略:constant, steps, exp, poly, step, sig, RANDOM,constant等方式
参考https://nanfei.ink/2018/01/23/YOLOv2%E8%B0%83%E5%8F%82%E6%80%BB%E7%BB%93/#more steps=400000,450000
scales=.1,.1 ★ steps和scale是设置学习率的变化,比如迭代到400000次时,学习率衰减十倍,45000次迭代时,学习率又会在前一个学习率的基础上衰减十倍

卷积层:convolution

[convolutional]                 ★ 一层卷积层的配置说明

batch_normalize=1               ★ 是否进行BN处理,1为是,0为不是(batch_normalization)

filters=32                      ★ 卷积核个数,也是输出通道数

size=3                          ★ 卷积核尺寸

stride=1                        ★ 卷积步长

pad=1                           ★ 卷积时是否进行padding,padding的个数与卷积核尺寸有关,为size/2向下取整,如3/2=1
★ 取值0/1,当pad=1时,padding = (kernel-1) // 2;当pad=0的时候,padding就是依据给出的padding值。 activation=leaky ★ 网络层激活函数
★★ 卷积核尺寸3*3配合padding且步长为1时,不改变feature map的大小

下采样

下采样也是通过卷积实现的

# Downsample

[convolutional]                 ★ 下采样层的配置说明
batch_normalize=1
filters=64
size=3
stride=2
pad=1
activation=leaky ★★ 卷积核尺寸为3*3,配合padding且步长为2时,feature map变为原来的一半大小

上采样

[upsample]
stride=2

路由层(Route)

它的参数 layers 有一个或两个值。

当只有一个值时,它输出这一层通过该值索引的特征图。在我们的实验中设置为了-4,所以层级将输出路由层之前第四个层的特征图。

当层级有两个值时,它将返回由这两个值索引的拼接特征图。在我们的实验中为-1 和 61,因此该层级将输出从前一层级(-1)到第 61 层的特征图,并将它们按深度拼接。

[route]
layers = -4 [route]
layers = -1, 61

shotcut层

跳跃连接,合并相同尺寸的feature map(该术语来自于ResNet残差块的跳跃连接,构成残差网络)

[shortcut]                       ★ shotcut层配置说明

from=-3                          ★ 与前面的多少层进行融合,-3表示前面第三层

activation=linear                ★ 层激活函数

YOLO层前面一层卷积层配置说明

[convolutional]                  ★ YOLO层前面一层卷积层配置说明

size=1
stride=1
pad=1
filters=255 ★每一个[region/yolo]层前的最后一个卷积层中的 filters=(classes+1+coords)*anchors_num,
其中anchors_num 是该层mask的一个值。如果没有mask则anchors_num=num是这层的anchor数。COCO为80,num表示YOLO中每个cell预测的框的个数,YOLOV3中为3,即为mask的个数。 ★★★ 自己使用时,此处的值一定要根据自己的数据集进行更改,例如你识别4个类,则filters=3*(4+5)=27,三个fileters
都需要修改,切记 activation=linear

yolo层:

[yolo]                             ★ YOLO层配置说明。yolov2中

mask = 0,1,2                       ★ 使用anchor的索引,0,1,2表示使用下面定义的0-9个anchors中的前三个anchor

anchors = 10,13,  16,30,  33,23,  30,61,  62,45,  59,119,  116,90,  156,198,  373,326   ★ anchor的<width>,<height>

classes=80                         ★ 类别数目

num=9                              ★ 每个grid cell总共预测几个box,和anchors的数量一致。(3*3,3个anchor,3个尺度)当想要使用更多anchors时需要调大num
在每个尺度上,每个单元使用 3 个锚点预测 3 个边界框,锚点的总数为 9(不同尺度的anchor不同)。 jitter=.3 ★ 数据增强手段,此处jitter为随机调整宽高比的范围,该参数不好理解。利用数据抖动产生更多数据,YOLOv2中使用的是crop,filp,以及net层的angle,flip是随机的,jitter就是crop的参数,tiny-yolo-voc.cfg中jitter=.3,就是在0~0.3中进行crop ignore_thresh = .7 ★ 参与计算的IOU阈值大小。当预测的检测框与ground true的IOU大于ignore_thresh的时候,参与loss的计算,否则,检测框的不参与损失计算。 ★ 理解:目的是控制参与loss计算的检测框的规模,当ignore_thresh过于大,接近于1的时候,那么参与检测框回归loss的个数就会比较少,同时也容易造成过拟合;而如果ignore_thresh设置的过于小,那么参与计算的会数量
规模就会很大。同时也容易在进行检测框回归的时候造成欠拟合。 ★ 参数设置:一般选取0.5-0.7之间的一个值,之前的计算基础都是小尺度(13*13)用的是0.7,(26*26)用的是0.5。这次先将0.5更改为0.7。参考:https://www.e-learn.cn/content/qita/804953 truth_thresh = 1 random=1 ★ 为1打开随机多尺度训练,为0则关闭。如果为1,每次迭代图片大小随机从320到608,步长为32;如果为0,每次训练大小与输入大小一致
★★ 提示:当打开随机多尺度训练时,前面设置的网络输入尺寸width和height其实就不起作用了,width会在320到608之间随机取值,且width=height,每10轮随机改变一次,一般建议可以根据自己需要修改随机尺度训练的范围,这样可以增大batch,望读者自行尝试!

从零开始Pytorch-YOLOv3【笔记】(一)配置文件解读的更多相关文章

  1. 【比赛打分展示双屏管理系统-专业版】Other.ini 配置文件解读以及排行榜界面及专家评语提交展示等具体配置

    第一个问题:Other.ini配置文件的解读: 在软件根目录下,找到Other.ini配置文件,打开如下: 配置文件解读: iOrderIDOrXSID:默认为0,按照软件 选项/排行榜和奖项 的设置 ...

  2. Nginx 小入门记录 之 Nginx 配置文件解读(二)

    上一小节主要是记录一些环境准备和Nginx的安装,接下来对Nginx基本配置进行记录. 查看配置文件安装记录 可以通过以下Linux命令进行查看: rpm -ql nginx rpm 是liunx的包 ...

  3. net core体系-web应用程序-4net core2.0大白话带你入门-3asp.net core项目架构和配置文件解读

    asp.net core web项目目录解读   Connected Services 和传统.net web项目相比,它的功能类似于添加webservice或者wcf service的引用.暂时用不 ...

  4. Spring学习笔记--Spring配置文件和依赖注入

    Spring配置文件 1.alias:设置别名,为bean设置别名,并且可以设置多个别名; <!-- 设置别名 --> <alias name="user" al ...

  5. 从零开始ant-design-vue-pro开发笔记(一)

    开始 从这里开始是用ant-design-vue组件写ant-design-vue-pro这个后台项目实现步骤的从零开始搭建的过程,视频地址,它采用了ant-desgin-vue的组件库作为素材开发, ...

  6. redis 的使用 及 配置文件解读

    redis-server命令 redis-server /usr/local/redis/conf/redis.conf #加配置文件绝对路径启动redis服务 redis-server /usr/l ...

  7. 怎样在idea添加log日志 以及log4j2配置文件解读

    网上找了很多篇文章,就数这篇比较全,从下载到配置都有讲到,解决从0开始接触java日志文件添加的各位同学.参考文章:https://www.cnblogs.com/hong-fithing/p/769 ...

  8. Spring笔记--xml配置文件详解

    1:bean的基本属性配置: <!-- id是bean的标识符,必须唯一,如果没有配置id,name默认为标识符 如果配置了id,有配置了name,那么name为别名 name可以设置多个别名, ...

  9. java微信开发(wechat4j)——wechat4j配置文件解读

    wechat4j的配置文件是wechat4j.properties.需要放置在项目src目录下.在wechat4j.jar中的META-INF下有一个wechat4j.properties.sampl ...

随机推荐

  1. tmux 入门教程

    tmux 本教程是基于ACWing的<Linux基础课>所做,希望大家支持ACWing 功能 分屏 当需要同时运行两个终端,并且进行比对着输入时,来回切换比较麻烦,就可以利用分屏 可以在一 ...

  2. https的页面内嵌入http页面报错的问题

    1.https的页面内嵌入http页面报错 在HTTPS的页面上嵌入http的页面时,浏览器会直接报错.比如在HTTPS页面上用 iframe 直接嵌入一个 http 页面,比如我们可以在百度上直接嵌 ...

  3. Java8-Consumer、Supplier、Predicate和Function方法总结

    这几个接口都在 java.util.function 包下的,分别是Consumer(消费型).supplier(供给型).predicate(谓词型).function(功能性): 那么,下面,我们 ...

  4. C语言非阻塞式键盘监听

    监听键盘可以使用C语言的字符输入函数,例如 getchar.getch.getche 等,使用getche函数监听键盘的例子: #include <stdio.h> #include &l ...

  5. Haproxy LVS Nginx的优缺点总结

    Haproxy  LVS  Nginx的优缺点总结 1.haproxy优点 2.Nginx优点 3.Nginx缺点 4.LVS优点 5.LVS缺点 haproxy优点: haproxy也是支持虚拟主机 ...

  6. Shell脚本之编程规范和变量

    Shell脚本编程规划和变量 1.Shell脚本概述 2.Shell编程规划 3.重定向与管道 4.Shell脚本变量 1.Shell脚本概述 Shell的作用:充当"翻译官"的角 ...

  7. MLlib学习——降维

    降维(Dimensionality Reduction) 是机器学习中的一种重要的特征处理手段,它可以减少计算过程中考虑到的随机变量(即特征)的个数,其被广泛应用于各种机器学习问题中,用于消除噪声.对 ...

  8. 2、前端--初见前后端交互、CSS简介、基本选择器、组合选择器、属性选择器、分组与嵌套、伪类选择器

    今日内容概要 初窥后端框架 css简介 css选择器 今日内容详细 初次体验前后端交互 # 代码无需掌握 只看效果即可 """后端框架:可以简单的理解为别人写好的一个非常 ...

  9. Solution -「AGC 016F」Games on DAG

    \(\mathcal{Description}\)   Link.   给定一个含 \(n\) 个点 \(m\) 条边的 DAG,有两枚初始在 1 号点和 2 号点的棋子.两人博弈,轮流移动其中一枚棋 ...

  10. elasticsearch查询之三种fetch id方式性能测试

    一.使用场景介绍 elasticsearch除了普通的全文检索之外,在很多的业务场景中都有使用,各个业务模块根据自己业务特色设置查询条件,通过elasticsearch执行并返回所有命中的记录的id: ...