Pytorch数据集读入——Dataset类,实现数据集打乱Shuffle

在进行相关平台的练习过程中，由于要自己导入数据集，而导入方法在市面上五花八门，各种库都可以应用，在这个过程中我准备尝试torchvision的库dataset

torchvision.datasets.ImageFolder

简单应用起来非常简单，用torchvision.datasets.ImageFolder实现图片的导入，在随后训练过程中用Datalodar处理后可按批次取出训练集

class ImageFolder(root, transform=None, target_transform=None, loader=default_loader, is_valid_file=None)

ImageFolder有这么几个参数，其中root指的是数据所在的文件夹，其中该文件夹的存储方式应为

root/labels/xxx.jpg

即根据自身分类标签存储在对应标签名的文件夹内

ImageFolder在读入的过程中会自行加好标签，最后形成一对对的数据

另外比较常用的就是transform，表示对于传入图片的预处理，如剪裁，颜色选择等等

比如

transform_t = transforms.Compose([

    transforms.Resize([64, 64]),

    transforms.Grayscale(num_output_channels=1),

    transforms.ToTensor()]

    )

具体参数可以上网查看

在之后用DataLodar处理后虽然的确有Shuffle的参数，但是却只是在一个小批次内进行打乱，原本是按照类别存储的，这样的话会导致很严重的过拟合，为了避免这个，我决定常识改写一下Dataset的类(主要是看起来Dataset看起来改写比较顺手...ImageFolder还没有看源码并没要对此下手)

但是Dataset需要读入一个个的训练数据的位置，怎么办呢？我就先写了一个小脚本，生成一个txt文件来存储所有数据的名称(相对路径)，同时在这一步就进行打乱操作【一眼看下去甚至会发现init的classnum参数完全没用上(捂脸

import os

import numpy as np

'''

self.target     顺序存储数据集

self.DataFile   存储根目录

self.s          存储所有数据

self.label      存储所有标签及其对应的值

'''

class create_list():

    def __init__(self,root,classnum=2):

        self.target=open("./Data.txt",'w')

        self.DataFile=root

        self.s=[]

        self.label={}

        self.datanum=0

    def create(self):

        files=os.listdir(self.DataFile)

        for labels in files:

            tempdata=os.listdir(self.DataFile+"/"+labels)

            self.label[labels]=len(self.label)

            for img in tempdata:

                self.datanum+=1

                self.target.write(self.DataFile+"/"+labels+"/"+img+" "+labels+"\n")

                self.s.append([self.DataFile+"/"+labels+"/"+img,labels])

    def detail(self):

        #查看数据数量以及标签对应

        print(self.datanum)

        print(self.label)

    def get_all(self):

        #查看所有数据

        print(self.s)

    def get_root(self):

        #获得根目录

        return self.DataFile

    def shuffle(self):

        #获得打乱的存储txt

        shuffle_file=open("./Shuffle_Data.txt",'w')

        temp=self.s

        np.random.shuffle(temp)

        for i in temp:

            shuffle_file.write(i[0]+" "+str(i[1])+"\n")

        return self.DataFile+"/Shuffle_Data.txt"

    def label_id(self,label):

        #获得该标签对应的值

        return self.label[label]

数据集的存储方式上的要求跟之前的ImageFolder一样

最终会生成一个这样的txt文件

数据集来源于某x光胸片判断...

而Shuffle操作就是为了生成打乱后的txt文件，我写的比较简单粗暴...先将就看吧，生成后大概就是这个样子

至少真正的做到打乱数据了

完成这个以后，就可以用此来帮助DataLodar了

接下来的代码或许比较辣眼睛...但是事实证明是有用的，但是可能Python技巧不太熟练所以就会显得很生涩...

我重现的Dataset类:

from PIL import Image

import torch

class cDataset(torch.utils.data.Dataset):

    def __init__(self, datatxt, root="", transform=None, target_transform=None, LabelDic=None):

        super(cDataset,self).__init__()

        files = open(root + "/" + datatxt, 'r')

        self.img=[]

        for i in files:

            i = i.rstrip()

            temp = i.split()

            if LabelDic!=None:

                self.img.append((temp[0],LabelDic[temp[1]]))

            else:

                self.img.append((temp[0],temp[0]))

        self.transform = transform

        self.target_transform = target_transform

    def __getitem__(self, index):

        files, label = self.img[index]

        img = Image.open(files).convert('RGB')

        if self.transform is not None:

            img = self.transform(img)

        return img,label

    def __len__(self):

        return len(self.img)

其实直接看就能大概看明白，主要也就是要实现类里面的几个方法

class cDataset(torch.utils.data.Dataset):

    def __init__():

    def __getitem__(self, index):

    def __len__(self):

其中getitm类似一次次的取出数据，len就是返回数据集数目

其中init的参数我做了稍许调整，由于我之前的txt内标签是字符串，而为了能让对应生成的tag是所要求的，可以传入一个字典，如:

LabelDic={"NORMAL":0,"PNEUMONIA":1}

这样就可以在之后转化为数字的标签，onehot或者怎么怎么样了,,,

Pytorch数据集读入——Dataset类,实现数据集打乱Shuffle的更多相关文章

『计算机视觉』Mask-RCNN_训练网络其一：数据集与Dataset类
Github地址:Mask_RCNN 『计算机视觉』Mask-RCNN_论文学习『计算机视觉』Mask-RCNN_项目文档翻译『计算机视觉』Mask-RCNN_推断网络其一:总览『计算机视觉』M ...
pytorch加载语音类自定义数据集
pytorch对一下常用的公开数据集有很方便的API接口,但是当我们需要使用自己的数据集训练神经网络时,就需要自定义数据集,在pytorch中,提供了一些类,方便我们定义自己的数据集合 torch.u ...
MindSpore数据集mindspore::dataset
MindSpore数据集mindspore::dataset ResizeBilinear #include <image_process.h> bool ResizeBilinear(L ...
镶嵌数据集 Mosaic Dataset 的常见数据组织方式
镶嵌数据集是ESRI公司推出一种用于管理海量影像数据的数据模型,定义在GeoDatabase数据模型中. 它的常见数据组织方式有两种: 1. 源镶嵌数据集 Source Mosaic Dataset ...
以Network Dataset（网络数据集）方式实现的最短路径分析
转自原文以Network Dataset(网络数据集)方式实现的最短路径分析构建网络有两种方式,分别是网络数据集NetworkDataset和几何网络Geometric Network,这个网络结 ...
Pytorch入门上 —— Dataset、Tensorboard、Transforms、Dataloader
本节内容参照小土堆的pytorch入门视频教程.学习时建议多读源码,通过源码中的注释可以快速弄清楚类或函数的作用以及输入输出类型. Dataset 借用Dataset可以快速访问深度学习需要的数据,例 ...
PyTorch笔记之 Dataset 和 Dataloader
一.简介在 PyTorch 中,我们的数据集往往会用一个类去表示,在训练时用 Dataloader 产生一个 batch 的数据 https://pytorch.org/tutorials/begi ...
Pandas将中文数据集转换为数值类别型数据集
一个机器学习竞赛中,题目大意如下,本文主要记录数据处理过程,为了模型训练,第一步需要将中文数据集处理为数值类别数据集保存. 基于大数据的运营商投诉与故障关联分析目标:原始数据集是含大量中文的xls格 ...
ADO.NET之使用DataSet类更新数据库
1.首先从数据库获得数据填充到DataSet类,该类中的表和数据库中的表相互映射. 2.对DataSet类中的表进行修改(插入,更新,删除等) 3.同步到数据库中:使用SqlDataAdapter实例 ...

随机推荐

ThinkPHP5实现定时任务
ThinkPHP5实现定时任务最近使用ThinkPHP5做了个项目,项目中需要定时任务的功能,感觉有必要分享下 TP5做定时任务使用到command.php的步骤如下: 1.配置command.p ...
[Note] GNUstep on Windows
1.下载与安装 www.gnustep.org/windows/installer.html 下载 GNUstep MSYS System GNUstep Core GNUstep Devel 并安装 ...
B/S 工业互联网地铁行业
前言近几年,互联网与交通运输的融合,改变了交易模式,影响着运输组织和经营方式,改变了运输主体的市场结构.模糊了运营与非营运的界限,也更好的实现了交通资源的集约共享,同时使得更多依靠外力和企业推动交通 ...
AlexNet模型的解析及tensorflow实现
AlexNet是ImageNet LSVRC 2012比赛中分类效果第一的深度神经网络模型,点击链接下载论文http://papers.nips.cc/paper/4824-imagenet-clas ...
Butter Knife
Butter Knife,专门为Android View设计的绑定注解,专业解决各种findViewById. 简介对一个成员变量使用@BindView注解,并传入一个View ID, Butter ...
ES(Elastic Search)update操作设置无 docment时进行insert
最近使用一套数据加工中间工具,查看es操作中的update操作.其中方法命名为updateOrInsert.但是没发现代码中有ES的insert方法调用.于是仔细分析了代码逻辑. 经过一路追溯,直至E ...
JavaScript事件属性event.target和currentTarget 属性的区别。
event.target 获取的是触发事件的标签元素 event.currentTarget 获取到的是发起事件的标签元素一.事件属性:event.target target事件委托的定义:本来该自 ...
BZOJ 4597: [Shoi2016]随机序列
4597: [Shoi2016]随机序列 Time Limit: 20 Sec Memory Limit: 256 MBSubmit: 255 Solved: 174[Submit][Status ...
Python从入门到精通视频（全60集） ☝☝☝
Python从入门到精通视频(全60集) Python入门到精通学习教程首先,课程的顺序需要调整:一和三主要是介绍学习和布置开发环境的,一介绍的是非VS开发,三介绍的是VS开发.VS2017现在 ...
华为路由vlan划分透传和回城路由配置
整整一个星期才整明白,刚开始是路由器ip地址配置在 interface Ethernet0/0/0这个接口能配置但不能用,死在了回城路由上,pc1 ping pc2就是不同,很疑惑,请教了大神,原来没 ...

Pytorch数据集读入——Dataset类,实现数据集打乱Shuffle

Pytorch数据集读入——Dataset类,实现数据集打乱Shuffle的更多相关文章

随机推荐

热门专题