来自 Python科学计算 http://hyry.dip.jp/tech/book/page/scipy/numpy_file.html

NumPy提供了多种存取数组内容的文件操作函数。保存数组数据的文件可以是二进制格式或者文本格式。二进制格式的文件又分为NumPy专用的格式化二进制类型和无格式类型。

1.tofile和fromfile()存取二进制格式文件

使用数组对象的tofile()方法可以方便地将数组中的数据以二进制格式写进文件。tofile()输出的数据不保存数组形状和元素类型等信息。因此用fromfile()函数读回数据时需要用户指定元素类型,并对数组的形状进行适当的修改:

  1. >>> a = np.arange(0,12)
  2. >>> a.shape = 3,4
  3. >>> a
  4. array([[ 0, 1, 2, 3],
  5. [ 4, 5, 6, 7],
  6. [ 8, 9, 10, 11]])
  7. >>> a.tofile("a.bin")
  8. >>> b = np.fromfile("a.bin", dtype=np.float) # 按照float类型读入数据
  9. >>> b # 读入的数据是错误的
  10. array([ 2.12199579e-314, 6.36598737e-314, 1.06099790e-313,
  11. 1.48539705e-313, 1.90979621e-313, 2.33419537e-313])
  12. >>> a.dtype # 查看a的dtype
  13. dtype('int32')
  14. >>> b = np.fromfile("a.bin", dtype=np.int32) # 按照int32类型读入数据
  15. >>> b # 数据是一维的
  16. array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])
  17. >>> b.shape = 3, 4 # 按照a的shape修改b的shape
  18. >>> b # 这次终于正确了
  19. array([[ 0, 1, 2, 3],
  20. [ 4, 5, 6, 7],
  21. [ 8, 9, 10, 11]])

从上面的例子可以看出,在读入数据时需要正确设置dtype参数,并修改数组的shape属性才能得到和原始数据一致的结果。无论数据的排列顺序是C语言格式还是Fortran语言格式,tofile()都统一使用C语言格式输出。此外如果指定了sep参数,则fromfile()和tofile()将以文本格式对数组进行输入输出。sep参数指定的是文本数据中数值的分隔符。

2.load()和save()存取NumPy专用的二进制格式文件

load()和save()用NumPy专用的二进制格式保存数据,它们会自动处理元素类型和形状等信息:

  1. >>> np.save("a.npy", a)
  2. >>> c = np.load( "a.npy" )
  3. >>> c
  4. array([[ 0, 1, 2, 3],
  5. [ 4, 5, 6, 7],
  6. [ 8, 9, 10, 11]])

如果想将多个数组保存到一个文件中,可以使用savez()。savez()的第一个参数是文件名,其后的参数都是需要保存的数组,也可以使用关键字参数为数组起名,非关键字参数传递的数组会自动起名为arr_0、arr_1、...。savez()输出的是一个扩展名为npz的压缩文件,其中每个文件都是一个save()保存的npy文件,文件名和数组名相同。load()自动识别npz文件,并且返回一个类似于字典的对象,可以通过数组名作为键获取数组的内容:

  1. >>> a = np.array([[1,2,3],[4,5,6]])
  2. >>> b = np.arange(0, 1.0, 0.1)
  3. >>> c = np.sin(b)
  4. >>> np.savez("result.npz", a, b, sin_array = c)
  5. >>> r = np.load("result.npz")
  6. >>> r["arr_0"] # 数组a
  7. array([[1, 2, 3],
  8. [4, 5, 6]])
  9. >>> r["arr_1"] # 数组b
  10. array([ 0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])
  11. >>> r["sin_array"] # 数组c
  12. array([ 0. , 0.09983342, 0.19866933, 0.29552021, 0.38941834,
  13. 0.47942554, 0.56464247, 0.64421769, 0.71735609, 0.78332691])

用解压软件打开“result.npz”文件,会发现其中有三个文件:“arr_0.npy”、“arr_1.npy”和“sin_array.npy”,其中分别保存着数组a、b、c的内容。

save()和savez()输出的二进制文件有特殊的格式,较难用其它语言编写的程序读入。
 
3.savetxt()和loadtxt()存取文本文件

savetxt()和loadtxt()可以读写保存1维和2维数组的文本文件。例如可以用它们读写CSV格式的文本文件:

  1. >>> a = np.arange(0,12,0.5).reshape(4,-1)
  2. >>> np.savetxt("a.txt", a) # 缺省按照'%.18e'格式保存数值,以空格分隔
  3. >>> np.loadtxt("a.txt")
  4. array([[ 0. , 0.5, 1. , 1.5, 2. , 2.5],
  5. [ 3. , 3.5, 4. , 4.5, 5. , 5.5],
  6. [ 6. , 6.5, 7. , 7.5, 8. , 8.5],
  7. [ 9. , 9.5, 10. , 10.5, 11. , 11.5]])
  8. >>> np.savetxt("a.txt", a, fmt="%d", delimiter=",") #改为保存为整数,以逗号分隔
  9. >>> np.loadtxt("a.txt",delimiter=",") # 读入的时候也需要指定逗号分隔
  10. array([[ 0., 0., 1., 1., 2., 2.],
  11. [ 3., 3., 4., 4., 5., 5.],
  12. [ 6., 6., 7., 7., 8., 8.],
  13. [ 9., 9., 10., 10., 11., 11.]])

有的CSV文件中除了保存数值之外,还保存一些说明文字,例如第一行和第一列通常为列名和行名。如果需要忽略CSV文件的第一行和第一列,可以先将文件读为字符串数组,然后取出需要的部分再转换为数值数组。例如对于下面的CSV数据文件:

  1. 姓名,年龄,体重,身高
  2. 张三,30,75,165
  3. 李四,45,60,170
  4. 王五,15,30,120

可以采用如下的程序读入其中的数值部分:

  1. """
  2. 使用NumPy快速读取CSV文件。
  3. """
  4. import numpy as np
  5.  
  6. # 采用字符串数组读取文件
  7. tmp = np.loadtxt("test.csv", dtype=np.str, delimiter=",")
  8.  
  9. # 将部分数组的值进行转换
  10. data = tmp[1:,1:].astype(np.float)
  11. print data
  12.  
  13. # 定义结构数组元素的类型
  14. persontype = np.dtype({
  15. 'names':['name', 'age', 'weight', 'height'],
  16. 'formats':['S32','i', 'f', 'f']})
  17.  
  18. f = file("test.csv")
  19. f.readline() # 跳过第一行
  20. data = np.loadtxt(f, dtype=persontype, delimiter=",")
  21. f.close()
  22. print data

读取CSV文件

  1. >>> tmp = np.loadtxt("test.csv", dtype=np.str, delimiter=",")
  2. >>> data = tmp[1:,1:].astype(np.float)
  3. >>> data
  4. array([[ 30., 75., 165.],
  5. [ 45., 60., 170.],
  6. [ 15., 30., 120.]])

此外,使用结构数组也能读入这样的文件,并且可以使用不同的元素类型保存每个列的值,下面先定义结构数组的类型:

  1. >>> persontype = np.dtype({
  2. ... 'names':['name', 'age', 'weight', 'height'],
  3. ... 'formats':['S32','i', 'f', 'f']})

由于文件中的第一行不是数据,因此需要先打开数据文件,读取完第一行之后,再把文件对象传递给loadtxt():>>> f = file("test.csv")>>> f.readline(>>> data = np.loadtxt(f, delimiter=",", dtype=persontype)

  1. >>> print data
  2. [('\xe5\xbc\xa0\xe4\xb8\x89', 30, 75.0, 165.0)
  3. ('\xe6\x9d\x8e\xe5\x9b\x9b', 45, 60.0, 170.0)
  4. ('\xe7\x8e\x8b\xe4\xba\x94', 15, 30.0, 120.0)]

4.使用文件对象

实际上,前面介绍的所有读写文件的函数都可以直接使用已经打开的文件对象,如果使用文件对象,可以将多个数组储存到一个npy文件中:

  1. >>> a = np.arange(8)
  2. >>> b = np.add.accumulate(a)
  3. >>> c = a + b
  4. >>> f = file("result.npy", "wb")
  5. >>> np.save(f, a) # 顺序将a,b,c保存进文件对象f
  6. >>> np.save(f, b)
  7. >>> np.save(f, c)
  8. >>> f.close()
  9. >>> f = file("result.npy", "rb")
  10. >>> np.load(f) # 顺序从文件对象f中读取内容
  11. array([0, 1, 2, 3, 4, 5, 6, 7])
  12. >>> np.load(f)
  13. array([ 0, 1, 3, 6, 10, 15, 21, 28])
  14. >>> np.load(f)
  15. array([ 0, 2, 5, 9, 14, 20, 27, 35])

Numpy存取文件的更多相关文章

  1. python利用numpy存取文件

    NumPy提供了多种存取数组内容的文件操作函数.保存数组数据的文件可以是二进制格式或者文本格式.二进制格式的文件又分为NumPy专用的格式化二进制类型和无格式类型. numpy格式的文件可以保存为后缀 ...

  2. 使用GridFsTemplate在Mongo中存取文件

      Maven依赖(还有一些springboot需要的) <parent> <groupId>org.springframework.boot</groupId> ...

  3. NumPy IO文件操作

    NumPy - IO ndarray对象可以保存到磁盘文件并从磁盘文件加载. 可用的 IO 功能有: load()和save()函数处理 numPy 二进制文件(带npy扩展名) loadtxt()和 ...

  4. numpy的文件存储.npy .npz 文件详解

    Numpy能够读写磁盘上的文本数据或二进制数据. 将数组以二进制格式保存到磁盘 np.load和np.save是读写磁盘数组数据的两个主要函数,默认情况下,数组是以未压缩的原始二进制格式保存在扩展名为 ...

  5. 007 numpy数组文件的存取

    不知道这个有没有用,都整理了一番. 一:数组以二进制格式进行存储 1.说明 np.save与np.load是读写磁盘数组数据的两个重要函数. 默认情况下,数组以压缩的原始二进制格式保存在扩展名为npy ...

  6. numpy中文件的存储和读取-嵩天老师笔记

    numpy中csv文件的存储和读取 CSV文件:(Comma‐Separated Value, 逗号分隔值) 一维和二维数组 存储 np.savetxt(frame,array,fmt='%.18e' ...

  7. numpy的文件存储,读取 .npy .npz 文件

    Numpy能够读写磁盘上的文本数据或二进制数据. 将数组以二进制格式保存到磁盘 np.load和np.save是读写磁盘数组数据的两个主要函数,默认情况下,数组是以未压缩的原始二进制格式保存在扩展名为 ...

  8. numpy的文件存储 .npy .npz 文件

    1)Numpy能够读写磁盘上的文本数据或二进制数据.将数组以二进制格式保存到磁盘np.load和np.save是读写磁盘数组数据的两个主要函数,默认情况下,数组是以未压缩的原始二进制格式保存在扩展名为 ...

  9. Python 学习笔记之 Numpy 库——文件操作

    1. 读写 txt 文件 a = list(range(0, 100)) a = np.array(a) # a.dtype = np.int64 np.savetxt("filename. ...

随机推荐

  1. Nginx -- proxy_pass配置

    一.proxy_pass 作用域: location 不影响浏览器地址栏的url 设置被代理server的协议和地址 协议可以为http或https 地址可以为域名或IP 二.配置规则 2.1 测试环 ...

  2. 「Django」rest_framework学习系列-解析器

    满足两个要求,request.Post中才有值 1.请求头要求:请求头中的Content-Type为application/x-www-form-urlencoded 2.数据格式要求 name=x& ...

  3. [Java多线程]-Thread和Runable源码解析之基本方法的运用实例

    前面的文章:多线程爬坑之路-学习多线程需要来了解哪些东西?(concurrent并发包的数据结构和线程池,Locks锁,Atomic原子类) 多线程爬坑之路-Thread和Runable源码解析 前面 ...

  4. 跟我一起写Makefile(三)

    书写规则———— 规则包含两个部分,一个是依赖关系,一个是生成目标的方法. 在Makefile中,规则的顺序是很重要的,因为,Makefile中只应该有一个最终目标,其它的目标都是被这个目标所连带出来 ...

  5. NOIP 2014 提高组 Day2

    期望得分:100+60+30=190 实际得分:70+60+30=160 https://www.luogu.org/problem/lists?name=&orderitem=pid& ...

  6. 常用Path路径

    正三角形(左):<Path Data="M40,0 L0,30 40,60 z" Stretch="Uniform"/> 正三角形(上):<P ...

  7. 【leetcode 简单】第十一题 搜索插入位置

    给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引.如果目标值不存在于数组中,返回它将会被按顺序插入的位置. 你可以假设数组中无重复元素. 示例 1: 输入: [1,3,5,6], 5 输 ...

  8. 深入理解Spring系列之十:DispatcherServlet请求分发源码分析

    转载 https://mp.weixin.qq.com/s/-kEjAeQFBYIGb0zRpST4UQ DispatcherServlet是SpringMVC的核心分发器,它实现了请求分发,是处理请 ...

  9. vim 颜色主题设置

    先看看vim编辑器提供的色彩配置方案: 首先进入vim的color目录(/usr/share/vim/vim74/colors,不同的系统目录不同,建议在-/建立.vim目录,然后在些目录里建立对应的 ...

  10. 目标检测-基于Pytorch实现Yolov3(1)- 搭建模型

    原文地址:https://www.cnblogs.com/jacklu/p/9853599.html 本人前段时间在T厂做了目标检测的项目,对一些目标检测框架也有了一定理解.其中Yolov3速度非常快 ...