PyTorch 之 DataLoader

DataLoader

DataLoader 是 PyTorch 中读取数据的一个重要接口，该接口定义在 dataloader.py 文件中，该接口的目的：将自定义的 Dataset 根据 batch size 的大小、是否 shuffle 等封装成一个 batch size 大小的 Tensor，用于后面的训练。

通过 DataLoader，使得我们在准备 mini-batch 时可以多线程并行处理，这样可以加快准备数据的速度。

DataLoader 是一个高效、简洁、直观地网络输入数据结构，便于使用和扩展

DataLoader 本质是一个可迭代对象，使用 iter() 访问，不能使用 next() 访问

使用 iter(dataloader) 返回的是一个迭代器，然后使用 next() 访问

也可以使用 for features, targets in dataloaders 进行可迭代对象的访问

一般我们实现一个 datasets 对象，传入到 DataLoader 中，然后内部使用 yield 返回每一次 batch 的数据

DataLoader(object) 的部分参数：

# 传入的数据集

dataset(Dataset)

# 每个 batch 有多少个样本

batch_size(int, optional)

# 在每个 epoch 开始的时候，对数据进行重新排序

shuffle(bool, optional)

# 自定义从数据集中抽取样本的策略，如果指定这个参数，那么 shuffle 必须为 False

sampler(Sampler, optional)

# 与 sampler 类似，但是一次只返回一个 batch 的 indices（索引），如果指定这个参数，那么 batch_size, shuffle, sampler, drop_last 就不能再指定了

batch_sampler(Sampler, optional)

# 这个参数决定有多少进程处理数据加载，0 意味着所有数据都会被加载到主进程，默认为0

num_workers(int, optional)

# 如果设置为 True，则最后不足batch_size大小的数据会被丢弃，比如batch_size=64, 而一个epoch只有100个样本，则最后36个会被丢弃；如果设置为False，则最后的batch_size会小一点

drop_last(bool, optional)

Reference:

pytorch之dataloader深入剖析

PyTorch 之 DataLoader的更多相关文章

[pytorch修改]dataloader.py 实现darknet中的subdivision功能
dataloader.py import random import torch import torch.multiprocessing as multiprocessing from torch. ...
Pytorch自定义dataloader以及在迭代过程中返回image的name
pytorch官方给的加载数据的方式是已经定义好的dataset以及loader,如何加载自己本地的图片以及label? 形如数据格式为 image1 label1 image2 label2 ... ...
pytorch之dataloader深入剖析
PyTorch学习笔记(6)——DataLoader源代码剖析 - dataloader本质是一个可迭代对象,使用iter()访问,不能使用next()访问: - 使用iter(dataloader) ...
一文弄懂Pytorch的DataLoader, DataSet, Sampler之间的关系
以下内容都是针对Pytorch 1.0-1.1介绍. 很多文章都是从Dataset等对象自下往上进行介绍,但是对于初学者而言,其实这并不好理解,因为有的时候会不自觉地陷入到一些细枝末节中去,而不能把握 ...
PyTorch之DataLoader杂谈
输入数据PipeLine pytorch 的数据加载到模型的操作顺序是这样的: ①创建一个 Dataset 对象②创建一个 DataLoader 对象③循环这个 DataLoader 对象,将img, ...
pytorch中DataLoader, DataSet, Sampler之间的关系
转自:https://mp.weixin.qq.com/s/RTv0cUWvc0kuXBeNoXVu_A 自上而下理解三者关系首先我们看一下DataLoader.__next__的源代码长什么样,为 ...
pytorch Dataset Dataloader用法（一个示例）
from torch.utils.data import Dataset from torch.utils.data import DataLoader from torch.utils.data i ...
pytorch 中Dataloader中的collate_fn参数
一般的,默认的collate_fn函数是要求一个batch中的图片都具有相同size(因为要做stack操作),当一个batch中的图片大小都不同时,可以使用自定义的collate_fn函数,则一个b ...
【pytorch】torch.utils.data.DataLoader
简介 DataLoader是PyTorch中的一种数据类型.用于训练/验证/测试时的数据按批读取. torch.utils.data.DataLoader(dataset, batch_size=1, ...

随机推荐

Django框架操作数据库的两种方式
Django操作数据库的前提操作是成功连接数据库,详情见上篇:https://www.cnblogs.com/kristin/p/10791358.html Django查询数据库的方式一 from ...
北京地铁出行线路规划系统项目总结(Java+Flask+Vue实现)
北京地铁出行线路规划系统项目总结 GitHub仓库地址:https://github.com/KeadinZhou/SE-Subway Demo地址:http://10.66.2.161:8080/ ...
2.InfluxDB-InfluxQL基础语法教程--目录
本文翻译自官网,官方文档地址:(https://docs.influxdata.com/influxdb/v1.7/query_language/data_exploration/) InfluxQL ...
单点登录，系统B如何辨别用户已登录系统A
首先系统A去访问受限资源,跳转到sso认证中心https://login.sso.com/login?redirectURL=https://www.a.com/center,用户登录成功之后,sso ...
安装系统时出现 Windows无法打开所需的文件 C:\Sources\install.wim 的解决办法
使用U盘安装Win10的时候,出现 Windows无法打开所需的文件 C:\Sources\install.wim,错误代码:0x8007000D,这是由于启动盘里 install.wim 文件不正确 ...
Rust中的哈希Map
严谨! fn main() { use std::collections::HashMap; let mut scores = HashMap::new(); scores.insert(String ...
springboot+springcloud微服务项目全套资料（笔记+源码+代码）
最近好几天没有写博客了,由于时间的太忙了,项目要做.各种资格证要考试,实在没有时间写了,今天正好赶上有闲暇的一刻,应许多的爱好者的要求发一份微服务项目的资料,此资料十分完整,且是最新的.希望各位读者能 ...
day21_7.25 面向对象之继承
一.继承什么是继承? 继承是一种关系,就是描述两者之间什么是什么的关系. 在程序中,继承描述的是类与类之间的关系. 例如a如果继承了b,a就具备了b的所有变量与方法,可以直接调用. class B: ...
python27期day11：f-strings格式化、迭代器、生成器、作业题。
1.建议小写f: name = "宝元"age = 18sex = "男"msg = F"姓名:{name},性别:{age},年龄:{sex}&qu ...
Junit框架使用（4）--JUnit常用断言及注解
从别人博客中抄过来一点东西原文地址:http://blog.csdn.net/wangpeng047/article/details/9628449 断言是编写测试用例的核心实现方式,即期望值是多少 ...

PyTorch 之 DataLoader

DataLoader

PyTorch 之 DataLoader的更多相关文章

随机推荐

热门专题