Numpy存取文件

来自 Python科学计算 http://hyry.dip.jp/tech/book/page/scipy/numpy_file.html

NumPy提供了多种存取数组内容的文件操作函数。保存数组数据的文件可以是二进制格式或者文本格式。二进制格式的文件又分为NumPy专用的格式化二进制类型和无格式类型。

1.tofile和fromfile()存取二进制格式文件

使用数组对象的tofile()方法可以方便地将数组中的数据以二进制格式写进文件。tofile()输出的数据不保存数组形状和元素类型等信息。因此用fromfile()函数读回数据时需要用户指定元素类型，并对数组的形状进行适当的修改：

>>> a = np.arange(0,12)

>>> a.shape = 3,4

>>> a

array([[ 0,  1,  2,  3],

       [ 4,  5,  6,  7],

       [ 8,  9, 10, 11]])

>>> a.tofile("a.bin")

>>> b = np.fromfile("a.bin", dtype=np.float) # 按照float类型读入数据

>>> b # 读入的数据是错误的

array([  2.12199579e-314,   6.36598737e-314,   1.06099790e-313,

         1.48539705e-313,   1.90979621e-313,   2.33419537e-313])

>>> a.dtype # 查看a的dtype

dtype('int32')

>>> b = np.fromfile("a.bin", dtype=np.int32) # 按照int32类型读入数据

>>> b # 数据是一维的

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

>>> b.shape = 3, 4 # 按照a的shape修改b的shape

>>> b # 这次终于正确了

array([[ 0,  1,  2,  3],

       [ 4,  5,  6,  7],

       [ 8,  9, 10, 11]])

从上面的例子可以看出，在读入数据时需要正确设置dtype参数，并修改数组的shape属性才能得到和原始数据一致的结果。无论数据的排列顺序是C语言格式还是Fortran语言格式，tofile()都统一使用C语言格式输出。此外如果指定了sep参数，则fromfile()和tofile()将以文本格式对数组进行输入输出。sep参数指定的是文本数据中数值的分隔符。

2.load()和save()存取NumPy专用的二进制格式文件

load()和save()用NumPy专用的二进制格式保存数据，它们会自动处理元素类型和形状等信息：

>>> np.save("a.npy", a)

>>> c = np.load( "a.npy" )

>>> c

array([[ 0,  1,  2,  3],

       [ 4,  5,  6,  7],

       [ 8,  9, 10, 11]])

如果想将多个数组保存到一个文件中，可以使用savez()。savez()的第一个参数是文件名，其后的参数都是需要保存的数组，也可以使用关键字参数为数组起名，非关键字参数传递的数组会自动起名为arr_0、arr_1、...。savez()输出的是一个扩展名为npz的压缩文件，其中每个文件都是一个save()保存的npy文件，文件名和数组名相同。load()自动识别npz文件，并且返回一个类似于字典的对象，可以通过数组名作为键获取数组的内容：

>>> a = np.array([[1,2,3],[4,5,6]])

>>> b = np.arange(0, 1.0, 0.1)

>>> c = np.sin(b)

>>> np.savez("result.npz", a, b, sin_array = c)

>>> r = np.load("result.npz")

>>> r["arr_0"] # 数组a

array([[1, 2, 3],

       [4, 5, 6]])

>>> r["arr_1"] # 数组b

array([ 0. ,  0.1,  0.2,  0.3,  0.4,  0.5,  0.6,  0.7,  0.8,  0.9])

>>> r["sin_array"] # 数组c

array([ 0.        ,  0.09983342,  0.19866933,  0.29552021,  0.38941834,

        0.47942554,  0.56464247,  0.64421769,  0.71735609,  0.78332691])

用解压软件打开“result.npz”文件，会发现其中有三个文件：“arr_0.npy”、“arr_1.npy”和“sin_array.npy”，其中分别保存着数组a、b、c的内容。

save()和savez()输出的二进制文件有特殊的格式，较难用其它语言编写的程序读入。

3.savetxt()和loadtxt()存取文本文件

savetxt()和loadtxt()可以读写保存1维和2维数组的文本文件。例如可以用它们读写CSV格式的文本文件：

>>> a = np.arange(0,12,0.5).reshape(4,-1)

>>> np.savetxt("a.txt", a) # 缺省按照'%.18e'格式保存数值，以空格分隔

>>> np.loadtxt("a.txt")

array([[  0. ,   0.5,   1. ,   1.5,   2. ,   2.5],

       [  3. ,   3.5,   4. ,   4.5,   5. ,   5.5],

       [  6. ,   6.5,   7. ,   7.5,   8. ,   8.5],

       [  9. ,   9.5,  10. ,  10.5,  11. ,  11.5]])

>>> np.savetxt("a.txt", a, fmt="%d", delimiter=",") #改为保存为整数，以逗号分隔

>>> np.loadtxt("a.txt",delimiter=",") # 读入的时候也需要指定逗号分隔

array([[  0.,   0.,   1.,   1.,   2.,   2.],

       [  3.,   3.,   4.,   4.,   5.,   5.],

       [  6.,   6.,   7.,   7.,   8.,   8.],

       [  9.,   9.,  10.,  10.,  11.,  11.]])

有的CSV文件中除了保存数值之外，还保存一些说明文字，例如第一行和第一列通常为列名和行名。如果需要忽略CSV文件的第一行和第一列，可以先将文件读为字符串数组，然后取出需要的部分再转换为数值数组。例如对于下面的CSV数据文件：

姓名,年龄,体重,身高

张三,30,75,165

李四,45,60,170

王五,15,30,120

可以采用如下的程序读入其中的数值部分：

"""

使用NumPy快速读取CSV文件。

"""

import numpy as np

# 采用字符串数组读取文件

tmp = np.loadtxt("test.csv", dtype=np.str, delimiter=",")

# 将部分数组的值进行转换

data = tmp[1:,1:].astype(np.float)

print data

# 定义结构数组元素的类型

persontype = np.dtype({

    'names':['name', 'age', 'weight', 'height'],

    'formats':['S32','i', 'f', 'f']})

f = file("test.csv")

f.readline() # 跳过第一行

data = np.loadtxt(f, dtype=persontype, delimiter=",")

f.close()

print data

读取CSV文件

>>> tmp = np.loadtxt("test.csv", dtype=np.str, delimiter=",")

>>> data = tmp[1:,1:].astype(np.float)

>>> data

array([[  30.,   75.,  165.],

       [  45.,   60.,  170.],

       [  15.,   30.,  120.]])

此外，使用结构数组也能读入这样的文件，并且可以使用不同的元素类型保存每个列的值，下面先定义结构数组的类型：

>>> persontype = np.dtype({

...     'names':['name', 'age', 'weight', 'height'],

...     'formats':['S32','i', 'f', 'f']})

由于文件中的第一行不是数据，因此需要先打开数据文件，读取完第一行之后，再把文件对象传递给loadtxt()：>>> f = file("test.csv")>>> f.readline(>>> data = np.loadtxt(f, delimiter=",", dtype=persontype)

>>> print data

[('\xe5\xbc\xa0\xe4\xb8\x89', 30, 75.0, 165.0)

 ('\xe6\x9d\x8e\xe5\x9b\x9b', 45, 60.0, 170.0)

 ('\xe7\x8e\x8b\xe4\xba\x94', 15, 30.0, 120.0)]

4.使用文件对象

实际上，前面介绍的所有读写文件的函数都可以直接使用已经打开的文件对象，如果使用文件对象，可以将多个数组储存到一个npy文件中：

>>> a = np.arange(8)

>>> b = np.add.accumulate(a)

>>> c = a + b

>>> f = file("result.npy", "wb")

>>> np.save(f, a) # 顺序将a,b,c保存进文件对象f

>>> np.save(f, b)

>>> np.save(f, c)

>>> f.close()

>>> f = file("result.npy", "rb")

>>> np.load(f) # 顺序从文件对象f中读取内容

array([0, 1, 2, 3, 4, 5, 6, 7])

>>> np.load(f)

array([ 0,  1,  3,  6, 10, 15, 21, 28])

>>> np.load(f)

array([ 0,  2,  5,  9, 14, 20, 27, 35])

Numpy存取文件的更多相关文章

python利用numpy存取文件
NumPy提供了多种存取数组内容的文件操作函数.保存数组数据的文件可以是二进制格式或者文本格式.二进制格式的文件又分为NumPy专用的格式化二进制类型和无格式类型. numpy格式的文件可以保存为后缀 ...
使用GridFsTemplate在Mongo中存取文件
Maven依赖(还有一些springboot需要的) <parent> <groupId>org.springframework.boot</groupId> ...
NumPy IO文件操作
NumPy - IO ndarray对象可以保存到磁盘文件并从磁盘文件加载. 可用的 IO 功能有: load()和save()函数处理 numPy 二进制文件(带npy扩展名) loadtxt()和 ...
numpy的文件存储.npy .npz 文件详解
Numpy能够读写磁盘上的文本数据或二进制数据. 将数组以二进制格式保存到磁盘 np.load和np.save是读写磁盘数组数据的两个主要函数,默认情况下,数组是以未压缩的原始二进制格式保存在扩展名为 ...
007 numpy数组文件的存取
不知道这个有没有用,都整理了一番. 一:数组以二进制格式进行存储 1.说明 np.save与np.load是读写磁盘数组数据的两个重要函数. 默认情况下,数组以压缩的原始二进制格式保存在扩展名为npy ...
numpy中文件的存储和读取-嵩天老师笔记
numpy中csv文件的存储和读取 CSV文件:(Comma‐Separated Value, 逗号分隔值) 一维和二维数组存储 np.savetxt(frame,array,fmt='%.18e' ...
numpy的文件存储,读取 .npy .npz 文件
Numpy能够读写磁盘上的文本数据或二进制数据. 将数组以二进制格式保存到磁盘 np.load和np.save是读写磁盘数组数据的两个主要函数,默认情况下,数组是以未压缩的原始二进制格式保存在扩展名为 ...
numpy的文件存储 .npy .npz 文件
1)Numpy能够读写磁盘上的文本数据或二进制数据.将数组以二进制格式保存到磁盘np.load和np.save是读写磁盘数组数据的两个主要函数,默认情况下,数组是以未压缩的原始二进制格式保存在扩展名为 ...
Python 学习笔记之 Numpy 库——文件操作
1. 读写 txt 文件 a = list(range(0, 100)) a = np.array(a) # a.dtype = np.int64 np.savetxt("filename. ...

随机推荐

[DeeplearningAI笔记]序列模型1.10-1.12LSTM/BRNN/DeepRNN
5.1循环序列模型觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.10长短期记忆网络(Long short term memory)LSTM Hochreiter S, Schmidhu ...
Android图片压缩工具MCompressor
这是一个简单的图片压缩工具(MCompressor),可自定义压缩的格式和质量,以及压缩后存储的文件路径,可决定对多大的文件进行压缩. 使用方法 build.gradle文件 Step 1. Add ...
OpenCV---模糊操作
推文:图像平滑处理(归一化块滤波.高斯滤波.中值滤波.双边滤波) 推文:图像的平滑与滤波模糊操作三种模糊操作方式均值模糊中值模糊自定义模糊(可以实现上面两种模糊方式) 原理: 图像处理:基础 ...
Java设计模式の责任链模式
在阎宏博士的<JAVA与模式>一书中开头是这样描述责任链(Chain of Responsibility)模式的: 责任链模式是一种对象的行为模式.在责任链模式里,很多对象由每一个对象对其 ...
Oracle用imp导入dmp文件记录一下
---------------------------------------------------------------------------------------------------- ...
ACM选修HUST1058(市赛题) Lucky Sequence 同余定理
Description Edward 得到了一个长度为 N 的整数序列,他想找出这里面有多少个“幸运的”连续子序列.一个连续子序列被称为“幸运的”,当且仅当该子序列内的整数之和恰好是 K 的 ...
MySQL性能优化之道
1.in和not in子查询优化 not in 是不能命中索引的,所以以下子查询性能很低. 如果是确定且有限的集合时,可以使用.如 IN (0,1,2). 用 exists或 notexists代替 ...
GridControl详解（一）原汁原味的表格展示
Dev控件中的表格控件GridControl控件非常强大.不过,一些细枝末节的地方有时候用起来不好找挺讨厌的.使用过程中,多半借助Demo和英文帮助文档.网上具体的使用方法也多半零碎.偶遇一个简单而且 ...
爬虫实战--使用Selenium模拟浏览器抓取淘宝商品美食信息
from selenium import webdriver from selenium.webdriver.common.by import By from selenium.common.exce ...
android ViewPager之OnPageChangeListener接口
项目中在使用ViewPager的时候,一般都要在界面滑动的时候做一些事情,android中有个专门的状态回调接口OnPageChangeListener. /** * Callback interfa ...

Numpy存取文件

Numpy存取文件的更多相关文章

随机推荐

热门专题