paddlepaddle将数据保存为recordio文件并读取

因为有时候一次性将数据加载到内存中有可能太大,所以我们可以选择将数据转换成标准格式recordio文件并读取供我们的网络利用,接下来记录一下如何保存数据为recordio,并读取。

将数据保存为RecordIO文件

官网给出了例子

import paddle.fluid as fluid
import numpy def reader_creator():
def __impl__():
for i in range(1000):
yield [
numpy.random.random(size=[3,224,224], dtype="float32"),
numpy.random.random(size=[1], dtype="int64")
]
return __impl__ img = fluid.layers.data(name="image", shape=[3, 224, 224])
label = fluid.layers.data(name="label", shape=[1], dtype="int64")
feeder = fluid.DataFeeder(feed_list=[img, label], place=fluid.CPUPlace()) BATCH_SIZE = 32
reader = paddle.batch(reader_creator(), batch_size=BATCH_SIZE)
fluid.recordio_writer.convert_reader_to_recordio_file(
"train.recordio", feeder=feeder, reader_creator=reader)

乍看也能看懂,非常合理,但是我这么保存以后就出现问题,在后面的读取数据的时候,一般我们会把[3,244,244]的图片送入卷积层,但是会报错,提示维数至少为4维,这点跟tensorflow一样,第一维是维数,那么应该怎么办呢?我的方法是:

    def reader_creator():
def __impl__():
for i in range(len(src_im_test)):
yield [
src_im_test[i],#shape=[3,244,244]
test_desmap[i],#shape=[3,244,244]
test_num[i] #shape=[1]
] return __impl__
img = fluid.layers.data(name="image", shape=[-1,3, 244, 244])#注意这里要加-1
label = fluid.layers.data(name="label", shape=[-1,1,244, 244])
num = fluid.layers.data(name="num", shape=[1], dtype='int64')
feeder = fluid.DataFeeder(feed_list=[img, label, num], place=fluid.CPUPlace())
reader = paddle.batch(reader_creator(), batch_size=1)
fluid.recordio_writer.convert_reader_to_recordio_file(
"train.recordio", feeder=feeder, reader_creator=reader)

这里把batch_size 设为1,后面读取的时候可以自由组batch_size。

从RecordIO读取数据传入网络

这里是官网代码

import paddle.fluid as fluid

file_obj = fluid.layers.open_files(
filenames=["train.recordio"],
shape=[[3, 224, 224], [1]],
lod_levels=[0, 0],
dtypes=["float32", "int64"],
pass_num=100
) image, label = fluid.layers.read_file(file_obj)

对应于上面的官网例子,但是前面说过,这样子有问题(在我这里是不能送入卷积层),下面给出我的读取方法,和上面我的代码相对应:

import paddle.fluid as fluid
file_obj = fluid.layers.open_files(
filenames=["train.recordio"],
shapes = [[-1,3, 244, 244], [-1,1,244, 244],[-1, 1]],
dtypes=['float32','float32','int64'],
lod_levels=[0, 0, 0],
)
file_obj = fluid.layers.batch(file_obj, batch_size=9)
img, des_im, total_num = fluid.layers.read_file(file_obj)#这里的数据可以直接送入网络
conv1 = fluid.layers.conv2d(img, 1, 1)#如果前面保存时不指定-1,这里就会报错
loss =fluid.layers.reduce_mean(fluid.layers.square_error_cost(input=conv1,label=des_im))
exe = fluid.Executor(fluid.CPUPlace())
exe.run(fluid.default_startup_program())
loss_v, = exe.run(fetch_list=[loss])
print "loss is {}".format(loss_v)

这里需要说明的是,从文件里面读取的数据已经是网络可以识别的数据格式了,有兴趣的话可以fluid.layers.data生成的变量一起print出来看一下,是一样的类型。

结果:

loss is [190564.94]

注意,返回的是一个numpy array,这里可以修改exe.run里面的参数return_numpy=False来决定。

我们再来看一下:

num = exe.run(fetch_list=[total_num])
print "num is {}".format(num)

结果:

num is [[17]
[13]
[61]
[9]
[8]
[9]
[17]
[29]
[9]]

同样返回的也是numpy array,可以看出来是怎么组成batch的。

2018百度之星开发者大赛-paddlepaddle学习(二)将数据保存为recordio文件并读取的更多相关文章

  1. 2018百度之星开发者大赛-paddlepaddle学习

    前言 本次比赛赛题是进行人流密度的估计,因为之前看过很多人体姿态估计和目标检测的论文,隐约感觉到可以用到这次比赛上来,所以趁着现在时间比较多,赶紧报名参加了一下比赛,比赛规定用paddlepaddle ...

  2. HDU6383 2018 “百度之星”程序设计大赛 - 初赛(B) 1004-p1m2 (二分)

    原题地址 p1m2 Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 131072/131072 K (Java/Others)Total ...

  3. HDU6380 2018 “百度之星”程序设计大赛 - 初赛(B) A-degree (无环图=树)

    原题地址 degree Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 131072/131072 K (Java/Others)Tot ...

  4. 2018"百度之星"程序设计大赛 - 资格赛 - 题集

    1001 $ 1 \leq m \leq 10 $ 像是状压的复杂度. 于是我们(用二进制)枚举留下的问题集合 然后把这个集合和问卷们的答案集合 $ & $ 一下 就可以只留下被选中的问题的答 ...

  5. 2018"百度之星"程序设计大赛 - 资格赛hdu6349三原色(最小生成树)

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=6349 题目: 三原色图 Time Limit: 1500/1000 MS (Java/Others)  ...

  6. 2018 “百度之星”程序设计大赛 - 初赛(A)

    第二题还算手稳+手快?最后勉强挤进前五百(期间看着自己从两百多掉到494名) 1001  度度熊拼三角    (hdoj 6374) 链接:http://acm.hdu.edu.cn/showprob ...

  7. 2018"百度之星"程序设计大赛 - 资格赛 A/B/E/F

    调查问卷  Accepts: 505  Submissions: 2436  Time Limit: 6500/6000 MS (Java/Others)  Memory Limit: 262144/ ...

  8. 2018"百度之星"程序设计大赛 - 资格赛 1002 子串查询

    题面又是万能的毒毒熊... 实在不想写了,就只写了这题 记26个前缀和查询枚举最小值直接算 实在是氵的死 而且我忘记输出Case #%d 想了很久 >_< #include<bits ...

  9. 2018 “百度之星”程序设计大赛 - 初赛(A)度度熊学队列 list rope

    c++ list使用 #include <cstdio> #include <cstdlib> #include <cmath> #include <cstr ...

随机推荐

  1. PAT——1026. 程序运行时间

    要获得一个C语言程序的运行时间,常用的方法是调用头文件time.h,其中提供了clock()函数,可以捕捉从程序开始运行到clock()被调用时所耗费的时间.这个时间单位是clock tick,即“时 ...

  2. POJ 2352 stars (树状数组入门经典!!!)

    Stars Time Limit: 1000MS   Memory Limit: 65536K Total Submissions: 54352   Accepted: 23386 Descripti ...

  3. IQueryable和IEnumerable

    使用EF你必须知道这两个的区别,可以帮助我们的提升性能. 表达树:Linq 表达 ①IQueryable和IEnumerable IQueryable 延时执行:扩展方法接受的是Expression( ...

  4. web前端开发从0到1—html结构与常用标签

    一:html文档标签结构 <html></html><!--文档片头信息,表示文档内容是用什么标签写的.--> <head></head>& ...

  5. ES6读书笔记(一)

    前言 前段时间整理了ES5的读书笔记:<你可能遗漏的JS知识点(一)>.<你可能遗漏的JS知识点(二)>,现在轮到ES6了,总共分为四篇,以便于知识点的梳理和查看,本篇内容包括 ...

  6. 工具 | Axure基础操作 No.6

    这个是基础教程最后一篇,但是这仅仅是个开始,需要学的东西还有很多.坚持! 1.生成部分原型页面 不能单独生成子级的页面,会自动的勾选上父级.如果想单独的生成的话,就得把这个页面的级别提高,变成一级页面 ...

  7. python3爬虫-爬取B站排行榜信息

    import requests, re, time, os category_dic = { "all": "全站榜", "origin": ...

  8. Python 基础 类的继承

    如果寂静定义了Person类,需要定义新的Student 和Teacher 类时 可以直接从Person 中继承 class Person(Object): def __init__(self,nam ...

  9. shell习题第5题:批量更改文件后缀名

    [题目要求] 找到123/目录下所有后缀名为.txt的文件 1. 批量修改.txt为.txt.bak 2. 把所有.bak文件打包压缩为123.tar.gz 3. 批量还原文件的名字,即把增加的.ba ...

  10. Font Awesome图标字体

    1.unicode unicode是字体在网页端最原始的应用方式,特点是: 兼容性最好,支持ie6+,及所有现代浏览器. 支持按字体的方式去动态调整图标大小,颜色等等. 但是因为是字体,所以不支持多色 ...