Pytorch技法：继承Subset类完成自定义数据拆分

我们在《torch.utils.data.DataLoader与迭代器转换》中介绍了如何使用Pytorch内置的数据集进行论文实现，如torchvision.datasets。下面是加载内置训练数据集的常见操作：

from torchvision.datasets import FashionMNIST

from torchvision.transforms import Compose, ToTensor, Normalize

RAW_DATA_PATH = './rawdata'

transform = Compose(

        [ToTensor(),

         Normalize((0.1307,), (0.3081,))

         ]

    )

train_data = FashionMNIST(

        root=RAW_DATA_PATH,

        download=True,

        train=True,

        transform=transform

    )

这里的train_data做为dataset对象，它拥有许多熟悉，我们可以通过以下方法获取样本数据的分类类别集合、样本的特征维度、样本的标签集合等信息。

classes = train_data.classes

num_features = train_data.data[0].shape[0]

train_labels = train_data.targets

print(classes)

print(num_features)

print(train_labels)

输出如下:

['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']

28

tensor([9, 0, 0,  ..., 3, 0, 5])

但是，我们常常会在训练集的基础上拆分出验证集（或者只用部分数据来进行训练）。我们想到的第一个方法是使用torch.utils.data.random_split对dataset进行划分，下面我们假设划分10000个样本做为训练集，其余样本做为验证集：

from torch.utils.data import random_split

k = 10000

train_data, valid_data = random_split(train_data, [k, len(train_data)-k])

注意我们如果打印train_data和valid_data的类型，可以看到显示：

<class 'torch.utils.data.dataset.Subset'>

已经不再是torchvision.datasets.mnist.FashionMNIST对象，而是一个所谓的Subset对象！此时Subset对象虽然仍然还存有data属性，但是内置的target和classes属性已经不复存在，比如如果我们强行访问valid_data的target属性：

valid_target = valid_data.target

就会报如下错误：

'Subset' object has no attribute 'target'

但如果我们在后续的代码中常常会将拆分后的数据集也默认为dataset对象，那么该如何做到代码的一致性呢？

这里有一个trick，那就是以继承SubSet类的方式的方式定义一个新的CustomSubSet类，使新类在保持SubSet类的基本属性的基础上，拥有和原本数据集类相似的属性，如targets和classes等:

from torch.utils.data import Subset

class CustomSubset(Subset):

    '''A custom subset class'''

    def __init__(self, dataset, indices):

        super().__init__(dataset, indices)

        self.targets = dataset.targets # 保留targets属性

        self.classes = dataset.classes # 保留classes属性

    def __getitem__(self, idx): #同时支持索引访问操作

        x, y = self.dataset[self.indices[idx]]

        return x, y 

    def __len__(self): # 同时支持取长度操作

        return len(self.indices)

然后就引出了第二种划分方法，即通过初始化CustomSubset对象的方式直接对数据集进行划分（这里为了简化省略了shuffle的步骤）：

import numpy as np

from copy import deepcopy

origin_data = deepcopy(train_data)

train_data = CustomSubset(origin_data, np.arange(k))

valid_data = CustomSubset(origin_data, np.arange(k, len(origin_data))-k)

注意，CustomSubset类的初始化方法的第二个参数indices为样本索引，我们可以通过np.arange()的方法来创建。

然后，我们再访问valid_data对应的classes和targes属性：

print(valid_data.classes)

print(valid_data.targets)

此时，我们发现可以成功访问这些属性了：

['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']

tensor([9, 0, 0,  ..., 3, 0, 5])

当然，CustomSubset的作用并不只是添加数据集的属性，我们还可以自定义一些数据预处理操作。我们将类的结构修改如下：

class CustomSubset(Subset):

    '''A custom subset class with customizable data transformation'''

    def __init__(self, dataset, indices, subset_transform=None):

        super().__init__(dataset, indices)

        self.targets = dataset.targets

        self.classes = dataset.classes

        self.subset_transform = subset_transform

    def __getitem__(self, idx):

        x, y = self.dataset[self.indices[idx]]

        if self.subset_transform:

            x = self.subset_transform(x)

        return x, y   

    def __len__(self):

        return len(self.indices)

我们可以在使用样本前设置好数据预处理算子:

from torchvision import transforms

valid_data.subset_transform = transforms.Compose(\

    [transforms.RandomRotation((180,180))])

这样，我们再像下列这样用索引访问取出数据集样本时，就会自动调用算子完成预处理操作:

print(valid_data[0])

打印结果缩略如下：



(tensor([[[-0.4242, -0.4242, -0.4242, ......-0.4242, -0.4242, -0.4242, -0.4242, -0.4242]]]), 9)

Pytorch技法：继承Subset类完成自定义数据拆分的更多相关文章

[Pytorch]PyTorch Dataloader自定义数据读取
整理一下看到的自定义数据读取的方法,较好的有一下三篇文章, 其实自定义的方法就是把现有数据集的train和test分别用含有图像路径与label的list返回就好了,所以需要根据数据集随机应变. 所 ...
[深度学习] pytorch学习笔记（4）(Module类、实现Flatten类、Module类作用、数据增强)
一.继承nn.Module类并自定义层我们要利用pytorch提供的很多便利的方法,则需要将很多自定义操作封装成nn.Module类. 首先,简单实现一个Mylinear类: from torch ...
.Net 配置文件--继承ConfigurationSection实现自定义处理类处理自定义配置节点
除了使用继承IConfigurationSectionHandler的方法定义处理自定义节点的类,还可以通过继承ConfigurationSection类实现同样效果. 首先说下.Net配置文件中一个 ...
.Net 配置文件——继承ConfigurationSection实现自定义处理类处理自定义配置节点
除了使用继承IConfigurationSectionHandler的方法定义处理自定义节点的类,还可以通过继承ConfigurationSection类实现同样效果. 首先说下.Net配置文件中一个 ...
WPF 之创建继承自Window 基类的自定义窗口基类
开发项目时,按照美工的设计其外边框(包括最大化,最小化,关闭等按钮)自然不同于 Window 自身的,但窗口的外边框及窗口移动.最小化等标题栏操作基本都是一样的.所以通过查看资料,可按如下方法创建继承 ...
QVariant类及QVariant与自定义数据类型转换的方法
这个类型相当于是Java里面的Object,它把绝大多数Qt提供的数据类型都封装起来,起到一个数据类型“擦除”的作用.比如我们的 table单元格可以是string,也可以是int,也可以是一个颜色值 ...
【spring boot】7.静态资源和拦截器处理以及继承WebMvcConfigurerAdapter类进行更多自定义配置
开头是鸡蛋,后面全靠编!!! ======================================================== 1.默认静态资源映射路径以及优先顺序 Spring B ...
JS面向对象（1） -- 简介，入门，系统常用类，自定义类，constructor，typeof，instanceof，对象在内存中的表现形式
相关链接: JS面向对象(1) -- 简介,入门,系统常用类,自定义类,constructor,typeof,instanceof,对象在内存中的表现形式 JS面向对象(2) -- this的使用,对 ...
[转]MVC自定义数据验证（两个时间的比较）
本文转自:http://www.cnblogs.com/zhangliangzlee/archive/2012/07/26/2610071.html Model: public class Model ...

随机推荐

webSocket 前端 js 加入心跳机制的基本写法
1前言 websocket 一般每隔 90 秒无操作则会自动断开 ,需要加入一个心跳机制来防止自断 2. 实验过程 (1)设定一个jsp 或html 文件都行 ,加入元素 (2)js 源码 , ...
微信小程序css继承
在微信小程序里写的全局样式,pages里的组件是可以继承的,但是components里只能继承font和color属性.
解决ubuntu18.04重启后蓝牙鼠标需要重新配对的问题
打开bash,运行bluetoothctl命令 # bluetoothctl 列出可用的蓝牙控制器 [bluetooth]# list 选择使用的蓝牙控制器 [bluetooth]# select 0 ...
linux笔记（一）
linux 开源镜像网址:http://mirrors.163.com pwd : 展示当前所在的目录的绝对路径 cd : 切换到某个路径 cd 命令,是 Change Directory 的缩写, ...
微服务架构 | *3.5 Nacos 服务注册与发现的源码分析
目录前言 1. 客户端注册进 Nacos 注册中心(客户端视角) 1.1 Spring Cloud 提供的规范标准 1.2 Nacos 的自动配置类 1.3 监听服务初始化事件 AbstractAu ...
发现一个现象：golang中大量的go出新协程，必然在GC统计中出现1ms以上的GC延迟
结论:协程池还是有必要的,能够有效减小GC的压力. 我的某个服务,为了方(tou)便(lan),一些异步处理的场合直接go出协程来处理. 服务中使用这样的代码来统计GC的延迟: var mem run ...
Go 变量及基本数据类型1
#### Go 变量及基本数据类型(一)今天主要学习一下Go 中的变量及基本数据类型: 如何申明,使用变量,以及基本数据类型的介绍和使用细节; ##### 变量的介绍1. 变量相当于内存中一个数据存储 ...
Python 安装MySQL 错误处理
正常情况下如果使用python 连接数据库需要安装 python-MySQL 类库 #pip install python-MySQL 等待安装完成即可使用时 import MySQLdb ==== ...
聊聊HTTPS和SSL协议
本文为转载,原文链接http://www.techug.com/https-ssl-tls,作者不详. 要说清楚 HTTPS 协议的实现原理,至少需要如下几个背景知识. 1. 大致了解几个基本术语(H ...
fluentd学习笔记
转载自http://blog.csdn.net/qq_27252133/article/details/53520416 原文https://blog.laisky.com/p/fluentd/ 最近 ...

Pytorch技法：继承Subset类完成自定义数据拆分

Pytorch技法：继承Subset类完成自定义数据拆分的更多相关文章

随机推荐

热门专题