TensorFlow笔记五：将cifar10数据文件复原成图片格式

一、cifar10数据集

（http://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz）源格式是数据文件，因为训练需要转换成图片格式

转换代码：

注意文件路径改成自己的文件路径，train文件夹需要自己建，等待转换完成

from scipy.misc import imsave

import numpy as np

# 解压 返回解压后的字典

def unpickle(file):

    import pickle as pk

    fo = open(file, 'rb')

    dict = pk.load(fo,encoding='iso-8859-1')

    fo.close()

    return dict

# 生成训练集图片

for j in range(1, 6):

    dataName = "cifar-10-python/cifar-10-batches-py/data_batch_" + str(j)  # 读取当前目录下的data_batch1~5文件。

    Xtr = unpickle(dataName)

    print (dataName + " is loading...")

    for i in range(0, 10000):

        img = np.reshape(Xtr['data'][i], (3, 32, 32))  # Xtr['data']为图片二进制数据

        img = img.transpose(1, 2, 0)  # 读取image

        picName = 'train/' + str(Xtr['labels'][i]) + '_' + str(i + (j - 1)*10000) + '.jpg'

        # Xtr['labels']为图片的标签，值范围0-9，本文中，train文件夹需要存在，并与脚本文件在同一目录下。

        imsave(picName, img)

    print (dataName + " loaded.")

print ("test_batch is loading...")

# 生成测试集图片

testXtr = unpickle("test_batch")

for i in range(0, 10000):

    img = np.reshape(testXtr['data'][i], (3, 32, 32))

    img = img.transpose(1, 2, 0)

    picName = 'test/' + str(testXtr['labels'][i]) + '_' + str(i) + '.jpg'

    imsave(picName, img)

print ("test_batch loaded.")

二、mnist数据集的转化

1、先解压出二进制文件，再运行

import numpy as np

import struct  

from PIL import Image

import os  

data_file = 'MNIST_data/train-images.idx3-ubyte' #需要修改的路径

# It's 47040016B, but we should set to 47040000B

data_file_size = 47040016

data_file_size = str(data_file_size - 16) + 'B'  

data_buf = open(data_file, 'rb').read()  

magic, numImages, numRows, numColumns = struct.unpack_from(

    '>IIII', data_buf, 0)

datas = struct.unpack_from(

    '>' + data_file_size, data_buf, struct.calcsize('>IIII'))

datas = np.array(datas).astype(np.uint8).reshape(

    numImages, 1, numRows, numColumns)  

label_file = 'MNIST_data/train-labels.idx1-ubyte' #需要修改的路径  

# It's 60008B, but we should set to 60000B

label_file_size = 60008

label_file_size = str(label_file_size - 8) + 'B'  

label_buf = open(label_file, 'rb').read()  

magic, numLabels = struct.unpack_from('>II', label_buf, 0)

labels = struct.unpack_from(

    '>' + label_file_size, label_buf, struct.calcsize('>II'))

labels = np.array(labels).astype(np.int64)  

datas_root = 'MNIST_data/mnist_train' #需要修改的路径

if not os.path.exists(datas_root):

    os.mkdir(datas_root)  

for i in range(10):

    file_name = datas_root + os.sep + str(i)

    if not os.path.exists(file_name):

        os.mkdir(file_name)  

for ii in range(numLabels):

    img = Image.fromarray(datas[ii, 0, 0:28, 0:28])

    label = labels[ii]

    file_name = datas_root + os.sep + str(label) + os.sep + 'mnist_train_' + str(ii) + '.png'

    img.save(file_name)

import numpy as np

import struct  

from PIL import Image

import os  

data_file = 'MNIST_data/t10k-images.idx3-ubyte' #需要修改的路径  

# It's 7840016B, but we should set to 7840000B

data_file_size = 7840016

data_file_size = str(data_file_size - 16) + 'B'  

data_buf = open(data_file, 'rb').read()  

magic, numImages, numRows, numColumns = struct.unpack_from(

    '>IIII', data_buf, 0)

datas = struct.unpack_from(

    '>' + data_file_size, data_buf, struct.calcsize('>IIII'))

datas = np.array(datas).astype(np.uint8).reshape(

    numImages, 1, numRows, numColumns)  

label_file = 'MNIST_data/t10k-labels.idx1-ubyte'#需要修改的路径  

# It's 10008B, but we should set to 10000B

label_file_size = 10008

label_file_size = str(label_file_size - 8) + 'B'  

label_buf = open(label_file, 'rb').read()  

magic, numLabels = struct.unpack_from('>II', label_buf, 0)

labels = struct.unpack_from(

    '>' + label_file_size, label_buf, struct.calcsize('>II'))

labels = np.array(labels).astype(np.int64)  

datas_root = 'MNIST_data/mnist_test' #需要修改的路径  

if not os.path.exists(datas_root):

    os.mkdir(datas_root)  

for i in range(10):

    file_name = datas_root + os.sep + str(i)

    if not os.path.exists(file_name):

        os.mkdir(file_name)  

for ii in range(numLabels):

    img = Image.fromarray(datas[ii, 0, 0:28, 0:28])

    label = labels[ii]

    file_name = datas_root + os.sep + str(label) + os.sep +  'mnist_test_' + str(ii) + '.png'

    img.save(file_name)

2、接着构造出图片集noisy_test和noisy_train

这两个图片集是加了椒盐噪声的集合（可用作图像去噪）

import numpy as np

import struct

import numpy as np

from PIL import Image

import os  

data_file = 'MNIST_data/train-images.idx3-ubyte' #需要修改的路径

# It's 47040016B, but we should set to 47040000B

data_file_size = 47040016

data_file_size = str(data_file_size - 16) + 'B'  

data_buf = open(data_file, 'rb').read()  

magic, numImages, numRows, numColumns = struct.unpack_from(

    '>IIII', data_buf, 0)

datas = struct.unpack_from(

    '>' + data_file_size, data_buf, struct.calcsize('>IIII'))

datas = np.array(datas).astype(np.uint8).reshape(

    numImages, 1, numRows, numColumns)  

label_file = 'MNIST_data/train-labels.idx1-ubyte' #需要修改的路径  

# It's 60008B, but we should set to 60000B

label_file_size = 60008

label_file_size = str(label_file_size - 8) + 'B'  

label_buf = open(label_file, 'rb').read()  

magic, numLabels = struct.unpack_from('>II', label_buf, 0)

labels = struct.unpack_from(

    '>' + label_file_size, label_buf, struct.calcsize('>II'))

labels = np.array(labels).astype(np.int64)  

datas_root = 'MNIST_data/noisy_train' #需要修改的路径

if not os.path.exists(datas_root):

    os.mkdir(datas_root)  

for i in range(10):

    file_name = datas_root + os.sep + str(i)

    if not os.path.exists(file_name):

        os.mkdir(file_name)  

for ii in range(numLabels):

    img = Image.fromarray(datas[ii, 0, 0:28, 0:28])

    label = labels[ii]

    file_name = datas_root + os.sep + str(label) + os.sep + 'mnist_train_' + str(ii) + '.png'

    x_train_noisy = np.array(img)

    noise_factor = 0.5

    x_train_noisy = x_train_noisy.astype('float32') / 255.

    x_train_noisy = x_train_noisy + noise_factor * np.random.normal(loc=0.0, scale=1.0, size=x_train_noisy.shape)

    x_train_noisy = np.clip(x_train_noisy, 0., 1.)

    x_train_noisy = x_train_noisy.astype(np.float)

    x_train_noisy = x_train_noisy.astype('float32') * 255

    x_train_noisy = x_train_noisy.astype(np.uint8)

    #print(x_train_noisy)

    #os._exit(0)

    img=Image.fromarray(x_train_noisy)

    img.save(file_name)

import numpy as np

import struct  

from PIL import Image

import os  

data_file = 'MNIST_data/t10k-images.idx3-ubyte' #需要修改的路径  

# It's 7840016B, but we should set to 7840000B

data_file_size = 7840016

data_file_size = str(data_file_size - 16) + 'B'  

data_buf = open(data_file, 'rb').read()  

magic, numImages, numRows, numColumns = struct.unpack_from(

    '>IIII', data_buf, 0)

datas = struct.unpack_from(

    '>' + data_file_size, data_buf, struct.calcsize('>IIII'))

datas = np.array(datas).astype(np.uint8).reshape(

    numImages, 1, numRows, numColumns)  

label_file = 'MNIST_data/t10k-labels.idx1-ubyte'#需要修改的路径  

# It's 10008B, but we should set to 10000B

label_file_size = 10008

label_file_size = str(label_file_size - 8) + 'B'  

label_buf = open(label_file, 'rb').read()  

magic, numLabels = struct.unpack_from('>II', label_buf, 0)

labels = struct.unpack_from(

    '>' + label_file_size, label_buf, struct.calcsize('>II'))

labels = np.array(labels).astype(np.int64)  

datas_root = 'MNIST_data/noisy_test' #需要修改的路径  

if not os.path.exists(datas_root):

    os.mkdir(datas_root)  

for i in range(10):

    file_name = datas_root + os.sep + str(i)

    if not os.path.exists(file_name):

        os.mkdir(file_name)  

for ii in range(numLabels):

    img = Image.fromarray(datas[ii, 0, 0:28, 0:28])

    label = labels[ii]

    file_name = datas_root + os.sep + str(label) + os.sep + 'mnist_test_' + str(ii) + '.png'

    x_train_noisy = np.array(img)

    noise_factor = 0.5

    x_train_noisy = x_train_noisy.astype('float32') / 255.

    x_train_noisy = x_train_noisy + noise_factor * np.random.normal(loc=0.0, scale=1.0, size=x_train_noisy.shape)

    x_train_noisy = np.clip(x_train_noisy, 0., 1.)

    x_train_noisy = x_train_noisy.astype(np.float)

    x_train_noisy = x_train_noisy.astype('float32') * 255

    x_train_noisy = x_train_noisy.astype(np.uint8)

    #print(x_train_noisy)

    #os._exit(0)

    img=Image.fromarray(x_train_noisy)

    img.save(file_name)

TensorFlow笔记五：将cifar10数据文件复原成图片格式的更多相关文章

【转】java将excel文件转换成txt格式文件
在实际应用中,我们难免会遇到解析excel文件入库事情,有时候为了方便,需要将excel文件转成txt格式文件.下面代码里面提供对xls.xlsx两种格式的excel文件解析,并写入到一个新的txt文 ...
关于springmvc下服务器文件打包成zip格式下载功能
关于springmvc下服务器文件打包成zip格式下载功能 2016年09月21日 11:22:14 toxic_guantou 阅读数:5731更多个人分类: 技术点存储版权声明:本文为博主 ...
base64格式的图片数据如何转成图片
base64格式的图片数据如何转成图片一.总结一句话总结:不仅要去掉前面的格式串,还需要base64_decode()解码才行. // $base_img是获取到前端传递的值 $base_img ...
Python:将utf-8格式的文件转换成gbk格式的文件
需求:将utf-8格式的文件转换成gbk格式的文件实现代码如下: def ReadFile(filePath,encoding="utf-8"): with codecs.ope ...
dvi文件和将dvi文件转换成pdf格式
dvi文件和将dvi文件转换成pdf格式 Latex只能把tex文件编译成dvi文件, 在cmd 中: 使用xdvi查看dvi格式的文件若用texstudio编辑tex文件,则可直接将已编译成功的. ...
将文本(lrc,txt)文件转换成UTF-8格式
UTF-8是UNICODE的一种变长字符编码又称万国码,由Ken Thompson于1992年创建.现在已经标准化为RFC 3629.UTF-8用1到6个字节编码UNICODE字符.用在网页上可以同一 ...
使用visual studio把xsd文件转成xml格式文件
使用visual studio把xsd文件转成xml格式文件最近一段时间都在做Amazon的mws api的对接工作,mws api的描述文件都是使用的xsd文件来进行的,之前确实也没有接触过,也花 ...
oracle 10g 用dbms_xmlgen将数据表转成xml格式
oracle 10g 用dbms_xmlgen将数据表转成xml格式 oracle 10g 用dbms_xmlgen将数据表转成xml格式 oracle用plsql将sql查询的所有数据导出为xml
java实现将文件压缩成zip格式
以下是将文件压缩成zip格式的工具类(复制后可以直接使用): zip4j.jar包下载地址:http://www.lingala.net/zip4j/download.php package util ...

随机推荐

PAT1031
一个合法的身份证号码由17位地区.日期编号和顺序编号加1位校验码组成.校验码的计算规则如下: 首先对前17位数字加权求和,权重分配为:{7,9,10,5,8,4,2,1,6,3,7,9,10,5,8, ...
mysql中游标的使用案例详解（学习笔记）(转)
1.游标是啥玩意?简单的说:游标(cursor)就是游动的标识,啥意思呢,通俗的这么说,一条sql取出对应n条结果资源的接口/句柄,就是游标,沿着游标可以一次取出一行.我给大家准备一张图: 2.怎么使 ...
BZOJ 4590 [Shoi2015]自动刷题机 ——二分答案
二分答案水题. #include <cstdio> #include <cstring> #include <iostream> #include <algo ...
linux系统——机制与策略（二）
策略与机制大部分策略与机制的区别定义是,策略是描述如何实现什么功能,机制则是需要实现怎样的功能.在"The Art of Unix Programming" 中Raymond通过 ...
优化Angularjs的$watch方法
Angularjs的$watch相信大家都知道,而且也经常使用,甚至,你还在为它的某些行为感到恼火.比如,一进入页面,它就会调用一次,我明明希望它在我初始化之后,值再次变动才调用.这种行为给我们带来许 ...
autoprefixer小记
autoprefixer配置 // var aPostcss = [require('autoprefixer')({ browsers: ['ios>=3','android>=2',' ...
Codeforces Round #315 (Div. 2) B 水题强行set
B. Inventory time limit per test 1 second memory limit per test 256 megabytes input standard input o ...
kubernetes 数据持久化之Glusterfs
1.GlusterFS 部署过程请参考上篇文章 2.配置endpoints [root@manager ~]# cat glusterfs-endpoints.json { "kind&q ...
Python之面向对象：封装
1.封装的概念将对象的数据与操作数据的方法相结合,通过方法将对象的数据与实现细节保护起来,就称为封装.外界只能通过对象的方法访问对象,因此封装同时也实现了对象的数据隐藏. 在使用面向对象的封装特性时 ...
PNG图片透明 IE6 解决方法
原文发布时间为:2009-11-18 -- 来源于本人的百度文章 [由搬家工具导入] png透明解决办法第1 种方法:定义一个样式,给某个div应用这个样式后，div的透明png背景图片自动透明了。 ...

TensorFlow笔记五：将cifar10数据文件复原成图片格式

TensorFlow笔记五：将cifar10数据文件复原成图片格式的更多相关文章

随机推荐

热门专题