一、visdom可视化工具

安装:pip install visdom

启动:命令行直接运行visdom

打开WEB:在浏览器使用http://localhost:8097打开visdom界面

二、使用visdom

# 导入Visdom类
from visdom import Visdom
# 定义一个env叫Mnist的board,如果不指定,则默认归于main
viz = Visdom(env='Mnist') # 在window Accuracy中画train acc和test acc,x坐标都是epoch
viz.line(Y=np.column_stack((acc, test_acc)),
X=np.column_stack((epoch, epoch)),
win='Accuracy',
update='append',
opts=dict(markers=False, legend=['Acc', 'Test Acc']))
# 在window Loss中画train loss和test loss,x坐标都是epoch
viz.line(Y=np.column_stack((loss.cpu().item(), test_loss.cpu().item())),
X=np.column_stack((epoch, epoch)),
win='Loss',
update='append',
opts=dict(markers=False, legend=['Loss', 'Test Loss']))

三、使用正则化

正则化也叫权重衰减(Weight Decay)

L1和L2正则化可以参考:https://blog.csdn.net/red_stone1/article/details/80755144

在代码中,我们只需要在优化器中使用weight_decay参数就可以启用L2正则化

# 选择一个优化器,指定需要优化的参数,学习率,以及正则化参数
optimizer = torch.optim.SGD(net.parameters(), lr=learning_rate, weight_decay=0.01)

由于在Pytorch中没有纳入L1正则化,我们可以通过手工实现:

# 正则化超参数lambda
lambd = 0.01
# 所有参数的绝对值的和
regularization_loss = 0 for param in model.parameters():
  regularization_loss += torch.sum(torch.abs(param)) # 自己手动在loss函数后添加L1正则项 lambda * sum(abs)
loss = F.cross_entropy(z, target) + lambd * regularization_loss
optimizer.zero_grad()
loss.backward()

四、使用Momentum动量

使用Momentum,即在使用SGD时指定momentum参数,如果不指定,默认为0,即不开启动量优化模式。

# 选择一个优化器,指定需要优化的参数,学习率,以及正则化参数,是否使用momentum
optimizer = torch.optim.SGD(net.parameters(), lr=learning_rate, momentum=0.9, weight_decay=0.01)

使用Adam时,由于Adam包含了Monmentum,所以他自己指定了Momentum参数的大小,无需我们指定。

五、学习率衰减 Learning rate decay

当学习率太小时,梯度下降很慢。当学习率太大时,可以在某个狭窄区间震荡,难以收敛。

学习率衰减就是为了解决学习率多大这种情况。

当我们在训练一个模型时,发现Loss在某个时间不发生变化(在一个平坦区),则我们要考虑是否是在一个狭窄区间震荡,导致的难以收敛。

我们在pytorch中可以使用ReducelROnPlateau(optimizer,'min')来监控loss的值:

from torch.optim.lr_scheduler import ReduceLROnPlateau

# 选择一个优化器,指定需要优化的参数,学习率,以及正则化参数,是否使用momentum
optimizer = torch.optim.SGD(net.parameters(), lr=learning_rate, momentum=0.9, weight_decay=0.01) # 使用一个高原监控器,将optimizer交给他管理,LR衰减参数默认0.1即一次缩小10倍,patience是监控10次loss看是否变化
scheduler = ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10) # 后面的optimizer.step()使用scheduler.step(loss)来代替,每次step都会监控一下loss
# 当loss在10次(可以设置)都未变化,则会使LR衰减一定的比例

另外,除了上述使用ReducelROnPlateau,还可以使用更为粗暴的StepLR函数,我们可以直接指定在多少step后下降一次LR的值:

from torch.optim.lr_scheduler import StepLR

# 选择一个优化器,指定需要优化的参数,学习率,以及正则化参数,是否使用momentum
optimizer = torch.optim.SGD(net.parameters(), lr=learning_rate, momentum=0.9, weight_decay=0.01) # 使用StepLR,指定step_size即每多少步衰减一次,gamma为衰减率,0.1代表除以10
scheduler = StepLR(optimizer, step_size = 10000, gamma=0.1) # 后面的optimizer.step()使用scheduler.step()

六、在全连接层使用batchnorm

# -*- coding:utf-8 -*-
__author__ = 'Leo.Z' import torch
from visdom import Visdom
import numpy as np import torch.nn.functional as F
from torch.nn import Module, Sequential, Linear, LeakyReLU, BatchNorm1d
from torchvision import datasets, transforms
from torch.utils.data import DataLoader batch_size = 200
learning_rate = 0.001
epochs = 100 train_data = datasets.MNIST('../data', train=True, download=True,
transform=transforms.Compose([
transforms.ToTensor(),
transforms.Normalize((0.1307,), (0.3081,))
])) test_data = datasets.MNIST('../data', train=False,
transform=transforms.Compose([
transforms.ToTensor(),
transforms.Normalize((0.1307,), (0.3081,))
])) train_db, val_db = torch.utils.data.random_split(train_data, [50000, 10000]) train_loader = DataLoader(train_db,
batch_size=100, shuffle=True)
val_loader = DataLoader(val_db,
batch_size=10000, shuffle=True)
test_loader = DataLoader(test_data,
batch_size=10000, shuffle=True) # 网络结构
class MLP(Module):
def __init__(self):
super(MLP, self).__init__() self.model = Sequential(
Linear(784, 200),
#===================== BN-start ======================
# 这里对第一层全连接层使用BN1d,在多个样本上对每一个神经元做归一化
BatchNorm1d(200, eps=1e-8),
# ===================== BN-end =======================
LeakyReLU(inplace=True),
Linear(200, 200),
#===================== BN-start ======================
# 这里对第二层全连接层使用BN1d,在多个样本上对每一个神经元做归一化
BatchNorm1d(200, eps=1e-8),
# ===================== BN-end =======================
LeakyReLU(inplace=True),
Linear(200, 10),
LeakyReLU(inplace=True)
) def forward(self, x):
x = self.model(x)
return x # 定义一个env叫Mnist的board,如果不指定,则默认归于main
viz = Visdom(env='TestBN') # 定义GPU设备
device = torch.device('cuda')
# model放到GPU
net = MLP().to(device) # 选择一个优化器,指定需要优化的参数,学习率,以及正则化参数,是否使用momentum
optimizer = torch.optim.SGD(net.parameters(), lr=learning_rate, momentum=0.9, weight_decay=0.01) for idx, (val_data, val_target) in enumerate(val_loader):
val_data = val_data.view(-1, 28 * 28)
val_data, val_target = val_data.to(device), val_target.to(device) for epoch in range(epochs): for batch_idx, (data, target) in enumerate(train_loader):
# data转换维度为[200,784],target的维度为[200]
data = data.view(-1, 28 * 28)
# 将data和target放到GPU
data, target = data.to(device), target.to(device)
# data为输入,net()直接执行forward
# 跑一次网络,得到z,维度为[200,10],200是batch_size,10是类别
# 由于net在GPU,data也在GPU,计算出的z就在GPU
# 调用net(data)的时候相当于调用Module类的__call__方法
z = net(data).to(device) # 将loss放到GPU
loss = F.cross_entropy(z, target).to(device)
# 每次迭代前将梯度置0
optimizer.zero_grad()
# 反向传播,计算梯度
loss.backward()
# 相当于执行w = w - dw,也就是更新权值
optimizer.step() ### 每一轮epoch,以下代码是使用分割出的val dataset来做测试
# 先计算在train dataset上的准确率
eq_mat = torch.eq(z.argmax(dim=1), target)
acc = torch.sum(eq_mat).float().item() / eq_mat.size()[0]
print('Loss:', loss)
print('Accuracy:', acc) # 用val跑一遍网络,并计算在val dataset上的准确率
# ===================== BN-start =====================
# 跑网络之前,先将BN层设置为validation模式
# BN层会自动使用在训练时累计的running_mean和running_var
net.eval()
#net.model[1].eval()
#net.model[4].eval()
# ===================== BN-end ======================= val_z = net(val_data).to(device)
val_loss = F.cross_entropy(val_z, val_target).to(device)
val_eq_mat = torch.eq(val_z.argmax(dim=1), val_target)
val_acc = torch.sum(val_eq_mat).float().item() / val_eq_mat.size()[0]
print('Val Loss:', val_loss)
print('Val Accuracy:', val_acc) # 将loss和acc画到visdom中
viz.line(Y=np.column_stack((acc, val_acc)),
X=np.column_stack((epoch, epoch)),
win='Accuracy',
update='append',
opts=dict(markers=False, legend=['Acc', 'Val Acc']))
# 将val loss和val acc画到visdom中
viz.line(Y=np.column_stack((loss.cpu().item(), val_loss.cpu().item())),
X=np.column_stack((epoch, epoch)),
win='Loss',
update='append',
opts=dict(markers=False, legend=['Loss', 'Val Loss']))

使用BN时的ACC和LOSS:

未使用BN时的ACC和LOSS:

从上述结果可以看出,使用BN后,收敛速度变快。

[深度学习] pytorch学习笔记(3)(visdom可视化、正则化、动量、学习率衰减、BN)的更多相关文章

  1. [深度学习] Pytorch学习(一)—— torch tensor

    [深度学习] Pytorch学习(一)-- torch tensor 学习笔记 . 记录 分享 . 学习的代码环境:python3.6 torch1.3 vscode+jupyter扩展 #%% im ...

  2. [深度学习] pytorch学习笔记(2)(梯度、梯度下降、凸函数、鞍点、激活函数、Loss函数、交叉熵、Mnist分类实现、GPU)

    一.梯度 导数是对某个自变量求导,得到一个标量. 偏微分是在多元函数中对某一个自变量求偏导(将其他自变量看成常数). 梯度指对所有自变量分别求偏导,然后组合成一个向量,所以梯度是向量,有方向和大小. ...

  3. [深度学习] pytorch学习笔记(4)(Module类、实现Flatten类、Module类作用、数据增强)

    一.继承nn.Module类并自定义层 我们要利用pytorch提供的很多便利的方法,则需要将很多自定义操作封装成nn.Module类. 首先,简单实现一个Mylinear类: from torch ...

  4. [深度学习] pytorch学习笔记(1)(数据类型、基础使用、自动求导、矩阵操作、维度变换、广播、拼接拆分、基本运算、范数、argmax、矩阵比较、where、gather)

    一.Pytorch安装 安装cuda和cudnn,例如cuda10,cudnn7.5 官网下载torch:https://pytorch.org/ 选择下载相应版本的torch 和torchvisio ...

  5. [深度学习] Pytorch学习(二)—— torch.nn 实践:训练分类器(含多GPU训练CPU加载预测的使用方法)

    Learn From: Pytroch 官方Tutorials Pytorch 官方文档 环境:python3.6 CUDA10 pytorch1.3 vscode+jupyter扩展 #%% #%% ...

  6. 【PyTorch深度学习】学习笔记之PyTorch与深度学习

    第1章 PyTorch与深度学习 深度学习的应用 接近人类水平的图像分类 接近人类水平的语音识别 机器翻译 自动驾驶汽车 Siri.Google语音和Alexa在最近几年更加准确 日本农民的黄瓜智能分 ...

  7. pytorch visdom可视化工具学习—1—详细使用-1—基本使用函数

    使用教程,参考: https://github.com/facebookresearch/visdom https://www.pytorchtutorial.com/using-visdom-for ...

  8. Deep Learning(深度学习)学习笔记整理系列之(三)

    Deep Learning(深度学习)学习笔记整理系列 zouxy09@qq.com http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0 2013-04 ...

  9. CS231n 斯坦福深度视觉识别课 学习笔记(完结)

    课程地址 第1章 CS231n课程介绍 ---1.1 计算机视觉概述 这门课的主要内容是计算机视觉.它是一门需要涉及很多其他科目知识的学科. 视觉数据占据了互联网的绝大多数,但是它们很难利用. --- ...

随机推荐

  1. 菜鸟系列k8s——k8s集群部署(2)

    k8s集群部署 1. 角色分配 角色 IP 安装组件 k8s-master 10.0.0.170 kube-apiserver,kube-controller-manager,kube-schedul ...

  2. 微信多开脚本(Windows,Mac)

    微信多开 以下内容仅用于学习使用.严禁用于非法用途,违者自负. Windows 多开 Windows 版本的微信在一些比较新的版本好像限制了多开,我们这里提供一个版本(也是官方的).https://p ...

  3. 【案例分享】使用ActiveReports报表工具,在.NET MVC模式下动态创建报表

    提起报表,大家会觉得即熟悉又陌生,好像常常在工作中使用,又似乎无法准确描述报表.今天我们来一起了解一下什么是报表,报表的结构.构成元素,以及为什么需要报表. 什么是报表 简单的说:报表就是通过表格.图 ...

  4. 12306 的架构也太 "牛X" 了吧!

    每到节假日期间,一二线城市返乡.外出游玩的人们几乎都面临着一个问题:抢火车票! 虽然现在大多数情况下都能订到票,但是放票瞬间即无票的场景,相信大家都深有体会.尤其是春节期间,大家不仅使用12306,还 ...

  5. Swoft 2.0.5 更新,新增高效秒级定时任务、异常管理组件

    什么是 Swoft ? Swoft 是一款基于 Swoole 扩展实现的 PHP 微服务协程框架.Swoft 能像 Go 一样,内置协程网络服务器及常用的协程客户端且常驻内存,不依赖传统的 PHP-F ...

  6. linux小白家教学<一>

    <数据中心规划与实施> 教学大纲  编写人:Allen 一. 课程教学内容及目标: (一) 知识目标 1.掌握企业级LINUX部署以及相关配置: 2.掌握LINUX操作系统基本的创建.删除 ...

  7. Java8 parallelStream浅析

    JAVA8中引入了lamda表达式和Stream接口.其丰富的API及强大的表达能力极大的简化代码,提升了效率,同时还通过parallelStream提供并发操作的支持,本文探讨parallelStr ...

  8. SQL这样干,你就是给自己刨坑.....

    SQL是作为一个程序员接触得非常多的一种语言,但是,很多时候,我们会发现,有些SQL的执行效率异常的差,造成了数据库的负担.我们通过分析这些有问题的SQL,就可以发现很多我们平时在写SQL的时候忽略的 ...

  9. 06 Python网络爬虫requets模块高级用法

    一. 基于requests模块的cookie操作 - cookie概念: 当用户通过浏览器访问一个域名的时候,访问的web服务器会给客户端发送数据,以保持web服务器与客户端之间的状态保持,这些数据就 ...

  10. js的作用主要这么几个

    js的作用主要有这么几个表单验证:网页上,用户输入的信息需要进行验证,在客户端验证,可以减少对服务器端的压力.所以,你应该把握正则表达式方面的知识.网页特效:页面上很多特效是非常好的,能产生很好的用户 ...