机器学习中数据读取是很重要的一个环节，TensorFlow也提供了很多实用的方法，为了避免以后时间久了又忘记，所以写下笔记以备日后查看。

最普通的正常情况

首先我们看看最普通的情况：

# 创建0-10的数据集，每个batch取个数。

dataset = tf.data.Dataset.range(10).batch(6)

iterator = dataset.make_one_shot_iterator()

next_element = iterator.get_next()

with tf.Session() as sess:

    for i in range(2):

        value = sess.run(next_element)

        print(value)

输出结果

[0 1 2 3 4 5]

[6 7 8 9]

由结果我们可以知道TensorFlow能很好地帮我们自动处理最后一个batch的数据。

datasets.batch(batch_size)与迭代次数的关系

但是如果上面for循环次数超过2会怎么样呢？也就是说如果 循环次数*批数量 > 数据集数量 会怎么样？我们试试看：

dataset = tf.data.Dataset.range(10).batch(6)

iterator = dataset.make_one_shot_iterator()

next_element = iterator.get_next()

with tf.Session() as sess:

    >>==for i in range(3):==<<

        value = sess.run(next_element)

        print(value)

输出结果

[0 1 2 3 4 5]

[6 7 8 9]

---------------------------------------------------------------------------

OutOfRangeError                           Traceback (most recent call last)

D:\Continuum\anaconda3\lib\site-packages\tensorflow\python\client\session.py in _do_call(self, fn, *args)

   1277     try:

  ...

  ...省略若干信息...

  ...

OutOfRangeError (see above for traceback): End of sequence

	 [[Node: IteratorGetNext_64 = IteratorGetNext[output_shapes=[[?]], output_types=[DT_INT64], _device="/job:localhost/replica:0/task:0/device:CPU:0"](OneShotIterator_28)]]

可以知道超过范围了，所以报错了。

datasets.repeat()

为了解决上述问题，repeat方法登场。还是直接看例子吧：

dataset = tf.data.Dataset.range(10).batch(6)

dataset = dataset.repeat(2)

iterator = dataset.make_one_shot_iterator()

next_element = iterator.get_next()

with tf.Session() as sess:

    for i in range(4):

        value = sess.run(next_element)

        print(value)

输出结果

[0 1 2 3 4 5]

[6 7 8 9]

[0 1 2 3 4 5]

[6 7 8 9]

可以知道repeat其实就是将数据集重复了指定次数，上面代码将数据集重复了2次，所以这次即使for循环次数是4也依旧能正常读取数据，并且都能完整把数据读取出来。同理，如果把for循环次数设置为大于4，那么也还是会报错，这么一来，我每次还得算repeat的次数，岂不是很心累？所以更简便的办法就是对repeat方法不设置重复次数，效果见如下：

dataset = tf.data.Dataset.range(10).batch(6)

dataset = dataset.repeat()

iterator = dataset.make_one_shot_iterator()

next_element = iterator.get_next()

with tf.Session() as sess:

    for i in range(6):

        value = sess.run(next_element)

        print(value)

输出结果：

[0 1 2 3 4 5]

[6 7 8 9]

[0 1 2 3 4 5]

[6 7 8 9]

[0 1 2 3 4 5]

[6 7 8 9]

此时无论for循环多少次都不怕啦~~

datasets.shuffle(buffer_size)

仔细看可以知道上面所有输出结果都是有序的，这在机器学习中用来训练模型是浪费资源且没有意义的，所以我们需要将数据打乱，这样每批次训练的时候所用到的数据集是不一样的，这样啊可以提高模型训练效果。

另外shuffle前需要设置buffer_size：

不设置会报错，
buffer_size=1:不打乱顺序，既保持原序
buffer_size越大，打乱程度越大，演示效果见如下代码：

dataset = tf.data.Dataset.range(10).shuffle(2).batch(6)

dataset = dataset.repeat(2)

iterator = dataset.make_one_shot_iterator()

next_element = iterator.get_next()

with tf.Session() as sess:

    for i in range(4):

        value = sess.run(next_element)

        print(value)

输出结果：

[1 0 2 4 3 5]

[7 8 9 6]

[1 2 3 4 0 6]

[7 8 9 5]

注意：shuffle的顺序很重要，一般建议是最开始执行shuffle操作，因为如果是先执行batch操作的话，那么此时就只是对batch进行shuffle，而batch里面的数据顺序依旧是有序的，那么随机程度会减弱。不信你看：

dataset = tf.data.Dataset.range(10).batch(6).shuffle(10)

dataset = dataset.repeat(2)

iterator = dataset.make_one_shot_iterator()

next_element = iterator.get_next()

with tf.Session() as sess:

    for i in range(4):

        value = sess.run(next_element)

        print(value)

输出结果：

[0 1 2 3 4 5]

[6 7 8 9]

[0 1 2 3 4 5]

[6 7 8 9]

Tensorflow datasets.shuffle repeat batch方法的更多相关文章

TensorFlow高效读取数据的方法——TFRecord的学习
关于TensorFlow读取数据,官网给出了三种方法: 供给数据(Feeding):在TensorFlow程序运行的每一步,让python代码来供给数据. 从文件读取数据:在TensorFlow图的起 ...
【tf.keras】tensorflow datasets，tfds
一些最常用的数据集如 MNIST.Fashion MNIST.cifar10/100 在 tf.keras.datasets 中就能找到,但对于其它也常用的数据集如 SVHN.Caltech101,t ...
TensorFlow模型保存和加载方法
TensorFlow模型保存和加载方法模型保存 import tensorflow as tf w1 = tf.Variable(tf.constant(2.0, shape=[1]), name= ...
TensorFlow指定CPU和GPU方法
TensorFlow指定CPU和GPU方法 TensorFlow 支持 CPU 和 GPU.它也支持分布式计算.可以在一个或多个计算机系统的多个设备上使用 TensorFlow. TensorFlow ...
[TensorFlow] Introduction to TensorFlow Datasets and Estimators
Datasets and Estimators are two key TensorFlow features you should use: Datasets: The best practice ...
Tensorflow高效读取数据的方法
最新上传的mcnn中有完整的数据读写示例,可以参考. 关于Tensorflow读取数据,官网给出了三种方法: 供给数据(Feeding): 在TensorFlow程序运行的每一步, 让Python代码 ...
TensorFlow加载图片的方法
方法一:直接使用tensorflow提供的函数image = tf.gfile.FastGFile('PATH')来读取一副图片: import matplotlib.pyplot as plt; i ...
tensorflow中的参数初始化方法
1. 初始化为常量 tf中使用tf.constant_initializer(value)类生成一个初始值为常量value的tensor对象. constant_initializer类的构造函数定义 ...
TensorFlow 常见错误与解决方法——长期不定时更新
1. TypeError: Cannot interpret feed_dict key as Tensor: Can not convert a builtin_function_or_method ...

随机推荐

BZOJ5101[POI2018]Powódź——并查集
题目描述在地面上有一个水箱,它的俯视图被划分成了n行m列个方格,相邻两个方格之间有一堵厚度可以忽略不计的墙,水箱与外界之间有一堵高度无穷大的墙,因此水不可能漏到外面.已知水箱内每个格子的高度都是[ ...
【 Gym - 101138K 】 The World of Trains （DP）
BUPT2017 wintertraining(15) #4E Gym - 101138K 题意 N节车厢的火车,每节车厢容量是1~K,那么有\(K^N\)种火车. 求选择D个连续的且容量相同的车厢的 ...
LOJ #2721. 「NOI2018」屠龙勇士（set + exgcd）
题意 LOJ #2721. 「NOI2018」屠龙勇士题解首先假设每条龙都可以打死,每次拿到的剑攻击力为 \(ATK\) . 这个需要支持每次插入一个数,查找比一个 \(\le\) 数最大的数(或 ...
ANDROID OptionMenu 菜单列表
package com.app.menu; import android.os.Bundle; import android.app.Activity; import android.content. ...
hdu3506 Monkey Party (区间dp+四边形不等式优化)
题意:给n堆石子,每次合并相邻两堆,花费是这两堆的石子个数之和(1和n相邻),求全部合并,最小总花费若不要求相邻,可以贪心地合并最小的两堆.然而要求相邻就有反例为了方便,我们可以把n个数再复制一遍 ...
MQTT——取消订阅报文和断开连接报文
笔者已经把连接报文,订阅报文,发布报文都讲解了完了.而接下来就是取消订阅报文和断开连接报文.和其他的报文比较的话,他们显示非常简单.甚至笔者觉得可以不必要拿出来讲.只要看一下MQTT文档就没有什么不清 ...
hdu 3966(树链剖分+线段树区间更新)
传送门:Problem 3966 https://www.cnblogs.com/violet-acmer/p/9711441.html 学习资料: [1]线段树区间更新:https://blog.c ...
SQL经典问题：找出连续日期及连续的天数
create table tmptable(rq datetime) go insert tmptable values('2010.1.1') insert tmptable values('201 ...
基于 Dojo toolkit 实现 web2.0 的 MVC 模式
前言 MVC 模式是设计模式中的经典模式,它可以有效的分离数据层,展示层,和业务逻辑层.Web2.0 技术由于其良好的用户体验被广泛应用于 WEB 应用的展示层.但是在传统的 web 开发中,展示层的 ...
Struts2中遇到的问题
问题1: 最近在学习的时候用到了Struts2.5,在一系列操作之后Tomcat部署成功了,然而之后在测试的时候却出现了问题,网页无法正常响应,并且报出了Wrong method was define ...

Tensorflow datasets.shuffle repeat batch方法

最普通的正常情况

datasets.batch(batch_size)与迭代次数的关系

datasets.repeat()

datasets.shuffle(buffer_size)

Tensorflow datasets.shuffle repeat batch方法的更多相关文章

随机推荐

热门专题