前言

这是github上的一个项目YOLO_v3_tutorial_from_scratch，它还有相应的blog对其详细的解读。机器之心翻译了他的tutorial：从零开始PyTorch项目：YOLO v3目标检测实现。教程中的内容就不再赘述，写这篇博客的目的在于记录自己在学习这篇教程时的笔记。

本教程包含五个部分：

YOLO 的工作原理
创建 YOLO 网络层级
实现网络的前向传播
objectness 置信度阈值和非极大值抑制
设计输入和输出管道

1. YOLO 的工作原理

略

2. 创建 YOLO 网络层级

这一部分要求读者已经基本了解 YOLO 的运行方式和原理，以及关于 PyTorch 的基本知识，例如如何通过 nn.Module、nn.Sequential 和 torch.nn.parameter 等类来构建自定义的神经网络架构。

Pytorch的基本知识可以看B站小土堆的PyTorch深度学习快速入门教程。代码：https://github.com/xiaotudui/PyTorch-Tutorial

一个简单的Pytorch神经网络model如下：

pytorch-tutorial/src/model.py

# -*- coding: utf-8 -*-

# 作者：小土堆

# 公众号：土堆碎念

import torch

from torch import nn

# 搭建神经网络

class Tudui(nn.Module):

    def __init__(self):

        super(Tudui, self).__init__()

        self.model = nn.Sequential(

            nn.Conv2d(3, 32, 5, 1, 2),

            nn.MaxPool2d(2),

            nn.Conv2d(32, 32, 5, 1, 2),

            nn.MaxPool2d(2),

            nn.Conv2d(32, 64, 5, 1, 2),

            nn.MaxPool2d(2),

            nn.Flatten(),

            nn.Linear(64*4*4, 64),

            nn.Linear(64, 10)

        )

    def forward(self, x):

        x = self.model(x)

        return x

if __name__ == '__main__':

    tudui = Tudui()

    input = torch.ones((64, 3, 32, 32))

    output = tudui(input)

    print(output.shape)

其他类和函数等到后续用到的时候再详细说。

2.1.配置文件

我们将使用官方的 cfg 文件构建网络，它是由 YOLO 的作者发布的。

yolov3.cfg: https://github.com/pjreddie/darknet/blob/master/cfg/yolov3.cfg

2.1.1配置文件解读

yolov3.cfg主要有以下几块，[net],[convolutional],[shortcut]，[yolo]

net层

配置整个网络

[net]                  ★ net block

# Testing              ★ 注释方式：# xxx ，，在解析cfg的文件时会忽略该行。

# batch=1              ★ 这里的注释是说在Testing模型的时候设置batch=1，subdivisions=1。因为这样可以避免一些错误。

# subdivisions=1

# Training             ★ training模型的配置

batch=64               ★ 这儿batch与机器学习中的batch有少许差别，仅表示网络积累多少个样本后进行一次反向传播（backforward propagation，BP）

subdivisions=16        ★ 这个参数表示将一个batch的图片分sub次完成网络的前向传播

                         ★★ 敲黑板：在Darknet中，batch和sub是结合使用的，例如这儿的batch=64，sub=16表示训练的过程中将一次性加载64张图片进内存，然后分16次完成前向传播，意思是每次4张，前向传播的循环过程中累加loss求平均，待64张图片都完成前向传播后，再一次性后传更新参数，subdivisions越大，可以减轻显卡压力

                           ★★★ 调参经验：sub一般设置16，不能太大或太小，且为8的倍数，其实也没啥硬性规定，看着舒服就好。batch的值可以根据显存占用情况动态调整，一次性加减sub大小即可，通常情况下batch越大越好，还需注意一点，在测试的时候batch和sub都设置为1，避免发生神秘错误！

width=608              ★ 网络输入的宽width

height=608             ★ 网络输入的高height

                         ★★敲黑板：width和height一定要为32的倍数，否则不能加载网络

                           ★★★ 提示：width也可以设置为不等于height，通常情况下，width和height的值越大，对于小目标的识别效果越好，但受到了显存的限制，读者可以自行尝试不同组合。

channels=3             ★ 网络输入的通道数channels。若为灰度图，则chennels=1，另外还需修改/scr/data.c文件中的load_data_detection函数；若为RGB则 channels=3 ，无需修改/scr/data.c文件

 -------

data load_data_detection(int n, char **paths, int m, int w, int h, int boxes, int classes, float jitter, float hue, float saturation, float exposure)

{

    char **random_paths = get_random_paths(paths, n, m);

    int i;

    data d = {0};

    d.shallow = 0;

    d.X.rows = n;

    d.X.vals = calloc(d.X.rows, sizeof(float*));

    d.X.cols = h*w;                   //灰阶图

    //d.X.cols = h*w*3;               //RGB图

 -------

momentum=0.9          ★ 动量DeepLearning中最优化方法中的动量参数，这个值影响着梯度下降到最优值得速度

decay=0.0005          ★ 权重衰减正则项，防止过拟合

angle=0               ★ 数据增强参数，通过旋转角度来生成更多训练样本

saturation = 1.5      ★ 数据增强参数，通过调整饱和度来生成更多训练样本

exposure = 1.5        ★ 数据增强参数，通过调整曝光量来生成更多训练样本

hue=.1                ★ 数据增强参数，通过调整色调来生成更多训练样本

learning_rate=0.001   ★ 学习率决定着权值更新的速度，设置得太大会使结果超过最优值，太小会使下降速度过慢。如果仅靠人为干预调整参数，需要不断修改学习率。刚开始训练时可以将学习率设置的高一点，而一定轮数之后，将其减小在训练过程中，一般根据训练轮数设置动态变化的学习率。

刚开始训练时：学习率以 0.01 ~ 0.001 为宜。一定轮数过后：逐渐减缓。接近训练结束：学习速率的衰减应该在100倍以上。学习率的调整参考https://blog.csdn.net/qq_33485434/article/details/80452941

                               ★★★ 学习率调整一定不要太死，实际训练过程中根据loss的变化和其他指标动态调整，手动ctrl+c结束此次训练后，修改学习率，再加载刚才保存的模型继续训练即可完成手动调参，调整的依据是根据训练日志来，如果loss波动太大，说明学习率过大，适当减小，变为1/5，1/10均可，如果loss几乎不变，可能网络已经收敛或者陷入了局部极小，此时可以适当增大学习率，注意每次调整学习率后一定要训练久一点，充分观察，调参是个细活，慢慢琢磨

                               ★★ 一点小说明：实际学习率与GPU的个数有关，例如你的学习率设置为0.001，如果你有4块GPU，那真实学习

率为0.001*4（一种说法）

learning_rate=0.001

一块gpu跑的时候，打印出来的学习率0.001

2 块gpu跑的时候，打印出来的学习率0.002

4 块gpu跑的时候，打印出来的学习率0.004

所以应该是相乘的关系，而不是相除的关系（另一种说法）

burn_in=1000                    ★ 在迭代次数小于burn_in时，其学习率的更新有一种方式，大于burn_in时，才采用policy的更新方式

max_batches = 500200            ★ 训练次数达到max_batches后停止学习，一次为跑完一个batch

policy=steps                    ★ 学习率调整的策略：constant, steps, exp, poly, step, sig, RANDOM，constant等方式

                                  参考https://nanfei.ink/2018/01/23/YOLOv2%E8%B0%83%E5%8F%82%E6%80%BB%E7%BB%93/#more

steps=400000,450000

scales=.1,.1                    ★ steps和scale是设置学习率的变化，比如迭代到400000次时，学习率衰减十倍，45000次迭代时，学习率又会在前一个学习率的基础上衰减十倍

卷积层：convolution

[convolutional]                 ★ 一层卷积层的配置说明

batch_normalize=1               ★ 是否进行BN处理，1为是，0为不是（batch_normalization）

filters=32                      ★ 卷积核个数，也是输出通道数

size=3                          ★ 卷积核尺寸

stride=1                        ★ 卷积步长

pad=1                           ★ 卷积时是否进行padding，padding的个数与卷积核尺寸有关，为size/2向下取整，如3/2=1

                                ★ 取值0/1，当pad=1时，padding = (kernel-1) // 2;当pad=0的时候，padding就是依据给出的padding值。

activation=leaky                ★ 网络层激活函数

                                ★★ 卷积核尺寸3*3配合padding且步长为1时，不改变feature map的大小

下采样

下采样也是通过卷积实现的

# Downsample

[convolutional]                 ★ 下采样层的配置说明

batch_normalize=1

filters=64

size=3

stride=2

pad=1

activation=leaky                 ★★ 卷积核尺寸为3*3，配合padding且步长为2时，feature map变为原来的一半大小

上采样

[upsample]

stride=2

路由层（Route）

它的参数 layers 有一个或两个值。

当只有一个值时，它输出这一层通过该值索引的特征图。在我们的实验中设置为了-4，所以层级将输出路由层之前第四个层的特征图。

当层级有两个值时，它将返回由这两个值索引的拼接特征图。在我们的实验中为-1 和 61，因此该层级将输出从前一层级（-1）到第 61 层的特征图，并将它们按深度拼接。

[route]

layers = -4

[route]

layers = -1, 61

shotcut层

跳跃连接，合并相同尺寸的feature map（该术语来自于ResNet残差块的跳跃连接，构成残差网络）

[shortcut]                       ★ shotcut层配置说明

from=-3                          ★ 与前面的多少层进行融合，-3表示前面第三层

activation=linear                ★ 层激活函数

YOLO层前面一层卷积层配置说明

[convolutional]                  ★ YOLO层前面一层卷积层配置说明

size=1

stride=1

pad=1

filters=255                      ★每一个[region/yolo]层前的最后一个卷积层中的 filters=(classes+1+coords)*anchors_num，

其中anchors_num 是该层mask的一个值。如果没有mask则anchors_num=num是这层的anchor数。COCO为80,num表示YOLO中每个cell预测的框的个数，YOLOV3中为3，即为mask的个数。

                                 ★★★ 自己使用时，此处的值一定要根据自己的数据集进行更改，例如你识别4个类，则filters=3*(4+5)=27,三个fileters

都需要修改，切记

activation=linear

yolo层:

[yolo]                             ★ YOLO层配置说明。yolov2中

mask = 0,1,2                       ★ 使用anchor的索引，0，1，2表示使用下面定义的0-9个anchors中的前三个anchor

anchors = 10,13,  16,30,  33,23,  30,61,  62,45,  59,119,  116,90,  156,198,  373,326   ★ anchor的<width>,<height>

classes=80                         ★ 类别数目

num=9                              ★ 每个grid cell总共预测几个box,和anchors的数量一致。（3*3，3个anchor，3个尺度）当想要使用更多anchors时需要调大num

                                        在每个尺度上，每个单元使用 3 个锚点预测 3 个边界框，锚点的总数为 9（不同尺度的anchor不同）。

jitter=.3                          ★ 数据增强手段，此处jitter为随机调整宽高比的范围，该参数不好理解。利用数据抖动产生更多数据，YOLOv2中使用的是crop，filp，以及net层的angle，flip是随机的，jitter就是crop的参数，tiny-yolo-voc.cfg中jitter=.3，就是在0~0.3中进行crop

ignore_thresh = .7                 ★ 参与计算的IOU阈值大小。当预测的检测框与ground true的IOU大于ignore_thresh的时候，参与loss的计算，否则，检测框的不参与损失计算。

                                ★ 理解：目的是控制参与loss计算的检测框的规模，当ignore_thresh过于大，接近于1的时候，那么参与检测框回归loss的个数就会比较少，同时也容易造成过拟合；而如果ignore_thresh设置的过于小，那么参与计算的会数量

规模就会很大。同时也容易在进行检测框回归的时候造成欠拟合。

                                 ★ 参数设置：一般选取0.5-0.7之间的一个值，之前的计算基础都是小尺度（13*13）用的是0.7，（26*26）用的是0.5。这次先将0.5更改为0.7。参考：https://www.e-learn.cn/content/qita/804953

truth_thresh = 1                  

random=1                         ★ 为1打开随机多尺度训练，为0则关闭。如果为1，每次迭代图片大小随机从320到608，步长为32；如果为0，每次训练大小与输入大小一致

                                 ★★ 提示：当打开随机多尺度训练时，前面设置的网络输入尺寸width和height其实就不起作用了，width会在320到608之间随机取值，且width=height，每10轮随机改变一次，一般建议可以根据自己需要修改随机尺度训练的范围，这样可以增大batch，望读者自行尝试！

从零开始Pytorch-YOLOv3【笔记】（一）配置文件解读的更多相关文章

【比赛打分展示双屏管理系统-专业版】Other.ini 配置文件解读以及排行榜界面及专家评语提交展示等具体配置
第一个问题:Other.ini配置文件的解读: 在软件根目录下,找到Other.ini配置文件,打开如下: 配置文件解读: iOrderIDOrXSID:默认为0,按照软件选项/排行榜和奖项的设置 ...
Nginx 小入门记录之 Nginx 配置文件解读(二)
上一小节主要是记录一些环境准备和Nginx的安装,接下来对Nginx基本配置进行记录. 查看配置文件安装记录可以通过以下Linux命令进行查看: rpm -ql nginx rpm 是liunx的包 ...
net core体系-web应用程序-4net core2.0大白话带你入门-3asp.net core项目架构和配置文件解读
asp.net core web项目目录解读 Connected Services 和传统.net web项目相比,它的功能类似于添加webservice或者wcf service的引用.暂时用不 ...
Spring学习笔记--Spring配置文件和依赖注入
Spring配置文件 1.alias:设置别名,为bean设置别名,并且可以设置多个别名;  <alias name="user" al ...
从零开始ant-design-vue-pro开发笔记（一）
开始从这里开始是用ant-design-vue组件写ant-design-vue-pro这个后台项目实现步骤的从零开始搭建的过程,视频地址,它采用了ant-desgin-vue的组件库作为素材开发, ...
redis 的使用及配置文件解读
redis-server命令 redis-server /usr/local/redis/conf/redis.conf #加配置文件绝对路径启动redis服务 redis-server /usr/l ...
怎样在idea添加log日志以及log4j2配置文件解读
网上找了很多篇文章,就数这篇比较全,从下载到配置都有讲到,解决从0开始接触java日志文件添加的各位同学.参考文章:https://www.cnblogs.com/hong-fithing/p/769 ...
Spring笔记--xml配置文件详解
1:bean的基本属性配置: <!-- id是bean的标识符,必须唯一,如果没有配置id,name默认为标识符如果配置了id,有配置了name,那么name为别名 name可以设置多个别名, ...
java微信开发（wechat4j）——wechat4j配置文件解读
wechat4j的配置文件是wechat4j.properties.需要放置在项目src目录下.在wechat4j.jar中的META-INF下有一个wechat4j.properties.sampl ...

随机推荐

c++ constexpr用法
测试环境:windows10 + gcc8.1 1.constexpr产生背景 c++11以后,为了保证写出的代码比以往任何时候的执行效率都要好而进行了许多改善.其中,这种改善之一就是生成常量表达式, ...
添加项目文件时候不要把引用文件直接放到bin-debug里
如果时anycpu没问题,但是新建其他平台时,会重新生成失败,原因时无法找到dll,现象为x64目录下的debug文件夹为空
js静态成员和实例成员
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
C语言中缀表达式求值(综合)
题前需要了解的:中缀.后缀表达式是什么?(不知道你们知不知道,反正我当时不知道,搜的百度) 基本思路:先把输入的中缀表达式→后缀表达式→进行计算得出结果栈:"先进先出,先进后出" ...
js中全局和局部变量的区别
2 3 4 5 6 7 8 9 10 <script type="text/javascript"> var a = 1; function hehe() { ...
Java 中使用正则表达式校检IP是否输入正确
感谢大佬案例:https://www.jb51.net/article/114671.htm 正则表达式学习:(待办)近期总结
nginx实现跨域访问并支持(GET, POST,PUT,DELETE, OPTIONS)
最近有同事提出在使用客户端跨域访问的时候,发现服务器对option请求返回了403,后来查看了网络添加了一段配置,发现option服务返回204了,但是后续的put操作也直接返回了204导致无法使用图 ...
getter/setter方法
1.setter方法作用:用来设置成员变量,可以在方法里面过滤掉一些不合理的值命名规范: 必须是对象方法返回值类型为void 方法名必须以set开头,而且后面跟上成员变量名去掉"_&q ...
nodejs串行有关联
var async = require('async'); //串行无关联series//串行有关联waterfallasync.waterfall([ function(cb) { setTimeo ...
Solution -「JOISC 2019」「LOJ #3036」指定城市
\(\mathcal{Description}\) Link. 给定一棵含 \(n\) 个结点的树,双向边权不相同.\(q\) 次询问,每次询问在树上标记 \(e\) 个点,标记的价值为所有趋 ...

从零开始Pytorch-YOLOv3【笔记】（一）配置文件解读

前言