[个人总结]pytorch中用checkpoint设置恢复，在恢复后的acc上升

原因是因为checkpoint设置好的确是保存了相关字段。但是其中设置的train_dataset却已经走过了epoch轮，当你再继续训练时候，train_dataset是从第一个load_data开始。

# -*- coding:utf-8 -*-

import os

import numpy as np

import torch

import cv2

import torch.nn as nn

from torch.utils.data import DataLoader

import torchvision.transforms as transforms

import torchvision.utils as vutils

from torch.utils.tensorboard import SummaryWriter

import torch.optim as optim

from matplotlib import pyplot as plt

import os

from PIL import Image

os.environ ['KMP_DUPLICATE_LIB_OK'] ='True'

import sys

hello_pytorch_DIR = os.path.abspath(os.path.dirname(__file__)+os.path.sep+".."+os.path.sep+"..")

sys.path.append(hello_pytorch_DIR)

fmap_block = list()

import torch.nn.functional as F

grad_block = list()

from model.lenet import LeNet

from tools.my_dataset import RMBDataset

BASE_DIR = os.path.dirname(os.path.abspath(__file__))

torch.manual_seed(1)  # 设置随机种子

rmb_label = {"1": 0, "100": 1}

class Net(nn.Module):

    def __init__(self):

        super(Net, self).__init__()

        self.conv1 = nn.Conv2d(3, 6, 5)

        self.pool1 = nn.MaxPool2d(2, 2)

        self.conv2 = nn.Conv2d(6, 16, 5)

        self.pool2 = nn.MaxPool2d(2, 2)

        self.fc1 = nn.Linear(16 * 5 * 5, 120)

        self.fc2 = nn.Linear(120, 84)

        self.fc3 = nn.Linear(84, 2)

    def forward(self, x):

        x = self.pool1(F.relu(self.conv1(x)))

        x = self.pool1(F.relu(self.conv2(x)))

        x = x.view(-1, 16 * 5 * 5)

        x = F.relu(self.fc1(x))

        x = F.relu(self.fc2(x))

        x = self.fc3(x)

        return x

# 参数设置

MAX_EPOCH = 10

BATCH_SIZE = 16

LR = 0.01

log_interval = 10

val_interval = 1

checkpoint_interval=5

# ============================ step 1/5 数据 ============================

BASE_DIR = os.path.dirname(os.path.abspath(__file__))

split_dir = os.path.abspath(os.path.join(BASE_DIR, "rmb_split"))

if not os.path.exists(split_dir):

    raise Exception(r"数据 {} 不存在, 回到lesson-06\1_split_dataset.py生成数据".format(split_dir))

train_dir = os.path.join(split_dir, "train")

train_transform = transforms.Compose([

    transforms.Resize((32, 32)),

    transforms.ToTensor()

])

train_data = RMBDataset(data_dir=train_dir, transform=train_transform)

train_loader = DataLoader(dataset=train_data, batch_size=BATCH_SIZE, shuffle=True)

net = Net()

criterion = nn.CrossEntropyLoss()                                                   # 选择损失函数

# ============================ step 4/5 优化器 ============================

optimizer = optim.SGD(net.parameters(), lr=LR, momentum=0.9)                        # 选择优化器

checkpointdict = torch.load('./checkpoint4.pkl')

net.load_state_dict(checkpointdict["model_state_dict"])

optimizer.load_state_dict(checkpointdict["optimizer_state_dict"])

startepoch = checkpointdict["epoch"]

# ============================ step 5/5 训练 ============================

train_curve = list()

iter_count = 0

for epoch in range(startepoch+1,MAX_EPOCH):

    loss_mean = 0.

    correct = 0.

    total = 0.

    for counti in range(6):

        for i, data in enumerate(train_loader):

            if counti <5:

                continue

            else:

                iter_count += 1

                # forward

                inputs, labels = data

                outputs = net(inputs)

                # backward

                optimizer.zero_grad()

                loss = criterion(outputs, labels)

                loss.backward()

                # update weights

                optimizer.step()

                # 统计分类情况

                _, predicted = torch.max(outputs.data, 1)

                total += labels.size(0)

                correct += (predicted == labels).squeeze().sum().numpy()

                # 打印训练信息

                loss_mean += loss.item()

                train_curve.append(loss.item())

                if (i+1) % log_interval == 0:

                    loss_mean = loss_mean / log_interval

                    print("Training:Epoch[{:0>3}/{:0>3}] Iteration[{:0>3}/{:0>3}] Loss: {:.4f} Acc:{:.2%}".format(

                        epoch, MAX_EPOCH, i+1, len(train_loader), loss_mean, correct / total))

                    loss_mean = 0.

            # if ((epoch + 1) % checkpoint_interval == 0):

            #     checkpoint = {"model_state_dict": net.state_dict(),

            #                   "optimizer_state_dict": optimizer.state_dict(),

            #                   "epoch": epoch}

            #     path_checkpoint = './checkpoint{}.pkl'.format(epoch)

            #     torch.save(checkpoint, path_checkpoint)

            # if ((epoch + 1) % 5 == 0):

            #     print("退出")

            #     break

[个人总结]pytorch中用checkpoint设置恢复，在恢复后的acc上升的更多相关文章

PostgreSQL CheckPoint设置（转）
今天在研究checkpoint process的问题时,顺便复习了一下checkpoint设置问题,又有新的疑惑了. checkpoint又名检查点,在oracle中checkpoint的发生意味着之 ...
【Android】设置android:maxLines="1"后，android:imeOptions="actionSearch"失效
android:singleLine在API LEVEL 3已经废弃,可以用android:maxLines="1"代替. 但是测试的时候发现设置android:maxLines= ...
解决.Net设置只读、隐藏后后台获取不到值的问题
在前台页面上放了几个textbox,用 ReadOnly=true设置不可编辑,用visible="False"设置不可见用jquery给textbox赋值后在后台页面获取不到t ...
元素设置position:fixed属性后IE下宽度无法100%延伸
元素设置position:fixed属性后IE下宽度无法100%延伸 IE bug 出现条件: 1.div1设置position:fixed属性,并且想要width:100%的效果. 2.div2(下 ...
c# winform 设置winform进入窗口后在文本框里的默认焦点
c# winform 设置winform进入窗口后在文本框里的默认焦点进入窗口后默认聚焦到某个文本框,两种方法: ①设置tabindex 把该文本框属性里的tabIndex设为0,焦点就默认在这个文 ...
windows设置多长时间后自动关机分类： windows常用小技巧 2014-04-15 09:35 230人阅读评论(0) 收藏
分二步: 第一步:点击windows键,在"搜索程序和文件"的文本框输入:cmd 第二步:输入:shutdown -s -t (设置电脑一小时后自动关机) 备注: ...
undo丢失恢复异常恢复，运维DBA反映Oracle数据库无法启动报错ORA-01157 ORA-01110，分析原因为Oracle数据库坏块导致
本文转自惜纷飞大师. 模拟基表事务未提交数据库crash,undo丢失恢复异常恢复,运维DBA反映Oracle数据库无法启动报错ORA-01157 ORA-01110,分析原因为Oracle数据库 ...
设置vue启动项目后默认显示的页面
通过配置路由,可以设置vue项目启动后默认显示的页面.路由的path设置为path:"/",启动项目后就会显示默认的组件页面. import Vue from 'vue' impo ...
arcgis的afcore_libfnp.dll经常被360杀毒，删除，请到恢复区恢复
arcgis的afcore_libfnp.dll经常被360杀毒,删除,请到恢复区恢复

随机推荐

【uva 12627】Erratic Expansion（算法效率--递推）
题意:初始1个红气球,每小时后,1个红气球会变成3个红气球和1个蓝气球,而1个蓝气球会变成4个蓝气球.问经过N小时后,第L~R行一共有多少个红气球. 解法:问行数就定义f[i][j]表示 i 小时后前 ...
Educational Codeforces Round 94 (Rated for Div. 2) C. Binary String Reconstruction (构造)
题意:给你一个字符串\(s\),原字符串为\(w\),如果\(i>x\)且\(w_{i-x}=1\),那么\(s_{i}=1\),如果\(i+x\le n\)且\(w_{i+x}=1\),那么\ ...
Codeforces Round #649 (Div. 2) C. Ehab and Prefix MEXs (构造,贪心)
题意:有长度为\(n\)的数组\(a\),要求构造一个相同长度的数组\(b\),使得\({b_{1},b_{2},....b_{i}}\)集合中没有出现过的最小的数是\(a_{i}\). 题解:完全可 ...
Linux ulimit使用
什么是ulimit? ulimit是一个可以设置或者汇报当前用户资源限制的命令.使用ulimit命令需要有管理员权限,它只能在允许使用shell进行控制的系统中使用.也就是说它已经被嵌入到shell当 ...
Lightoj 1038 - Race to 1 Again【期望+dp】
题目:戳这里题意:一个数字n不断迭代地除以自身的因子得到1.求这个过程中操作除法次数的期望. 解题思路: 求概率基本都是从一个最基础的状态开始延伸推出公式,得出答案.因为每个数都有个共同的最终状态1 ...
记录一个状压DP用到的骚操作
不断的让i=i^lowbit(i)就可以枚举i二进制里面所有的1 嘛,很显然,怕是我没想到哦
sql-libs(1) -字符型注入
关于sql-libs的安装就不做过多的说明, 环境:win7虚拟机 192.168.48.130(NAT连接),然后用我的win10物理机去访问. 直接加 ' 报错,后测试 and '1'='1 成功 ...
记一次FreeRTOS错误配置导致无法进入临界区
最近项目用到FreeRTOS,在实际调试中发现我自己的一段代码本来好用的(在无RTOS的情况下),但是当我在带RTOS的情况下把代码放到一个单独的任务中运行时我发现本来好用的代码莫名其妙的出现问题,有 ...
markdown & git diff
markdown & git diff "dependencies": { "core-js": "3.6.5", "el ...
如何用 js 实现一个 class 类函数
如何用 js 实现一个 class 类函数原理实现方式总结 refs https://developer.mozilla.org/en-US/docs/Web/JavaScript/Refere ...

[个人总结]pytorch中用checkpoint设置恢复，在恢复后的acc上升

[个人总结]pytorch中用checkpoint设置恢复，在恢复后的acc上升的更多相关文章

随机推荐

热门专题