IO文件相关操作

IO编程

IO 即Input/Output input stream 就是数据从外面（磁盘、网络）流进内存，output stream 就是数据从内存流到外面去。

通常cpu 和内存的速度远远高于外设的速度，所以在IO编程中，存在速度严重不匹配的问题。

例，把100M的数据写入磁盘，CPU输出100M的数据只需要0.01秒，可是磁盘要接收这100M数据可能需要10秒。于是有同步IO和异步IO;

同步IO是指 CPU等程序执行完后续代码，等100M的数据在10秒后写入磁盘，再接着往下执行

异步IO是指 CPU不等待，在磁盘写数据的时候，CPU去执行其他的程序。

异步IO编写的程序性能远高于同步IO，但是异步IO的编程模型复杂。

操作IO的能力都是由操作系统提供的，每一种编程语言都会把操作系统提供的低级C接口封装起来方便使用，Python也一样。

open()

* UnicodeDecodeError 非法编码的字符可通过 errors参数设置为忽略

字符串的读取可以添加参数encoding，binary文件的读取不可设置此参数

f=open('/users/michael/gbk.txt','r',encoding='utf8',errors='ignore')

打开文件的模式有 'r',‘w','a' 读，写，添加

’r+','w+','a+' +表示以前面的那个字符的模式打开文件，除了那个字符的模式外还可以进行另一种模式的操作

'rb','wb,'ab' b表示该文件是二进制文件,比如图片、视频等

r 只读模式，文件不存在会报错，指针位于文件开头

w 只写模式，文件不存在则自动创建,文件存在会先清空内容再写，指针位于文件末尾

a 添加模式，文件不存在则创建，文件存在则在末尾接着写，指针位于文件末尾

r+ 打开后可读写，文件不存在会报错，指针位于文件开头，写文件会逐字覆盖，写完后指针位于写的最后一个字节处，再read()会从当前位置接着往后读

w+ 打开后可读写，文件不存在则创建，文件存在则会清空已存在的内容，指针位于文件末尾

a+ 打开后可读写，文件不存在则创建，存在则从文件末尾开始读写，指针位于文件末尾

当指针位于文件末尾时，可以使用seek()来移动文件中指针的位置

f=open(filename,'w+')

f.seek(0) #将指针移到文件开头

f.read()

f.seek(-10,2) #seek的第二个参数为2时表示从文件的末尾处开始移动，-10表示向前移动10个字节

读文件

不传入open（）的第二个参数，则默认为‘r'读模式

f=open('e:/work/e.txt','r')

#'r'表示读

print(f.read())

#如果文件打开成功，调用read()方法可以一次性读取全部内容，Python把内容读到内存，用一个str 对象表示

#最后一步是调用close()方法关闭文件。文件使用完毕后必须关闭，因为文件对象会占用系统资源，并且操作系统同时能打开的文件数量也是有限的：

#f.close()

#由于文件读写时都可能产生IOError，一旦出错，后面的f.close()就不会调用。所以，为了保证无论是否出错都能正确地关闭文件，我们可以使用try...finally来实现：

'''

try:

f=open('/path/to/file','r')

print(f.read())

finally:

if f:

f.close()

'''

#但是每次都这么写实在太繁琐，所以，Python 引入了with语句来自动帮我们调用close()方法；

'''

with open('/path/to/file','r') as f:

print(f.read())

'''

#这和前面的try...finally 是一样的，但是代码更简洁，并且不必调用f.close()方法。

#调用read()会一次性读取文件的全部内容，如果文件有10G，内存就爆了，所以，要保险起见，可以反复调用read(size)方法，每次最多读取size个字节的内容。

#调用readline()可以每次读取一行内容，调用readlines()一次读取所有内容并按行返回list，每个字符串值都以一个换行符\n结束。可以根据需要选择合适的调用。

for line in f.readlines():

print(line.strip()) # 把末尾的'\n'删掉

f.close()

* file-like object

像open()函数返回的这种有个read()方法的对象，在Python中统称为file-like object 。除了file外，还可以是内存的字节流，网络流，自定义流等等。

#file-like object 不要求从特定类继承，只要写个read()方法就行。

StringIO就是在内存中创建的file-like object ,常用作临时缓冲。

StringIO在内存中读写str

BytesIO在内存中读写二进制数据bytes

#要把str写入StringIO,我们需要先创建一个StringIO,然后，像文件一样写入即可：

'''

>>> from io import StringIO

>>> f=StringIO()

>>> f.write('hello')

>>>f.write(' ')

>>> f.write('jsdjk')

>>> print(f.getvalue())

hello jsdjk

'''

#交互式环境下f.write()返回的是写入的str的长度

#getvalue()方法用于获得写入后的str.

#要读取StringIO,可以用一个str初始化StringIO,然后像读文件一样读取：

from io import StringIO

f=StringIO('Hello!\nHi!\nGoodbyte!')

while True:

s=f.readline()

if s=='':

break

print(s.strip())

#strip()的作用是去掉字符串前后的空格

#b'\xe4\xb8\xad\xe6\x96\x87'

#BytesIO的使用类似StringIO,需创建一个BytesIO,然后写入一些bytes:

from io import BytesIO

f=BytesIO()

f.write('中文'.encode('utf-8'))

print(f.getvalue())

#请注意，写入的不是str,而是经过utf-8编码的bytes.

#用一个bytes初始化bytesIO,然后，像读文件一样读取：

f=BytesIO(b'\xe4\xb8\xad\xe6\x96\x87')

print(f.read())

如果传递给open()的文件名不存在，写模式和添加模式都会创建一个新的空文件，在读取或写入文件后，调用close()方法，然后才能再次打开该文件。

写文件时，操作系统往往不会立刻把数据写入磁盘，而是放到内存缓存起来，空闲的时候再慢慢写入。

只有调用close()方法时，操作系统才保证把没有写入的数据全部写入磁盘。忘记调用close()的后果是数据可能只写了一部分到磁盘，剩下的丢失了。所以还是用with语句来的保险：

with open('e:/work/w.txt','w') as f:

f.write('this is write with python\'s \'with\' function,whitch dosen\'t need \'close\' function to close fiel')

* shelve模块保存变量

#利用shelve模块，可以将Python程序中的变量保存到二进制的shelf文件中，程序就可以从硬盘中恢复变量的数据。

import shelve

shelfFile=shelve.open('mydata') 有则打开，没有则创建mydata

cats=['Zophis','Pooks','Simon']

shelfFile['cats']=cats

shelfFile.close()

#我们创建了一个列表cats，并写下shelfFile['cats']=cats,将该列表保存在shelfFile中，作为键’cat'关联的值（就像在字典中一样）。

#在Windows上运行以上代码，可以在当前工作目录下看到3个新文件；mydata.bak/mydata.dat和mydata.dir .

#重新打开这些文件取出数据时，shelf值不必用读模式或写模式打开，因为它们在打开后，既能读又能写。

shefFile=shelve.open('mydata')

type(shelfFile)

#<class 'shelve.DbfilenameShelf'>

print(shelfFile['cats'])

#['Zophis', 'Pooka', 'Simon']

shelfFile.close()

#这里，我们打开了shelf文件，检查我们的数据是否正确存储。输入shelfFile['cat']将返回我们前面保存的同一个列表，所以我们就知道该列表得到了正确存储，

#然后我们调用close().

#就像字典一样，shelf值有keys()和values()方法，返回shelf中键和值的类似列表的值。

#因为这些方法返回类似列表的值，而不是真正的列表，所以应该将它们传递给list()函数，取得列表的形式。

shelfFile=shelve.open('mydata')

print(list(shelfFile.keys()))

print(list(shelfFile.values()))

* pprint.pformat()函数保存变量

import pprint

cats=[{'name':'Zophie','desc':'chubby'},{'name':'Pooka','desc':'fluffy'}]

pprint.pformat(cats) #返回cats变量的字符串形式

fileObj=open('myCats.py','w')

fileObj.write('cats= '+pprint.pformat(cats)+'\n')

fileObj.close()

#当我们有了cats中数据的字符串形式，就很容易将该字符串写入一个文件，我们将它命名为myCats.py

#import 语句导入的模块本身就是Python脚本。如果来自pprint.pformat()的字符串保存为一个.py文件，该文件就是一个可以导入的模块，像其他模块一样。

#由于Python脚本本身也是带有.py文件扩展名的文本文件，所以你的Python程序甚至可以生成其他Python程序。然后将这些文件导入到脚本中。

import myCats

print(myCats.cats)

#[{'name':'Zophie','desc':'chubby'},{'name':'Pooka','desc':'fluffy'}]

print(myCats.cats[0])

#{'name':'Zophie','desc':'chubby'}

myCats.cats[0]['name']

#'Zophie'

#创建一个.py文件（而不是利用shelve模块保存变量）的好处在于，因为它是一个文本文件，所以任何人都可以用一个简单的文本编辑器读取和修改该文件的内容。

#但是，对于大多数应用，利用shelve模块来保存数据，是将变量保存到文件的最佳方式。

#只有基本数据类型，诸如整型、浮点型、字符串、列表和字典，可以作为简单文本写入一个文件。例如，File对象就不能编码为文本。

* 序列化

#在程序运行的过程中，所有的变量都在内存中，例，定义一个dic:

d=dict(name='Bob',age=20,score=88)

#可以随时修改变量，例把name改成bill,但是一旦程序结束，变量所占用的内存就被操作系统全部回收。如果没有把修改后的bill存储到磁盘上，下次重新运行程序

#变量又被初始化为Bob。

变量从内存中变成可存储或传输的过程称之为序列化，在Python中叫pickling，在其他语言中也被称之为serialization，marshalling，flattening等

#序列化后，就可以把序列化后的内容写入磁盘，或者通过网络传输到别的机器上。

把变量内容从序列化的对象重新读到内存里称之为反序列化，即unpickling

import pickle

d=dict(name='Bob',age=20,score=88)

pickle.dumps(d)

#pickle.dumps()方法把任意对象序列化成一个bytes,然后，就可以把这个bytes写入文件。

#或者用另一个方法pickle.dump()直接把对象序列化后写入一个file-like object:

f=open('dump.txt','wb')

pickle.dump(d,f)

f.close()

#当我们要把对象从磁盘读到内存时，可以先把内容读到一个bytes，然后用pickle.loads()方法反序列化出对象，

#也可以直接用pickle.load()方法从一个file-like object中直接反序列化出对象。

f=open('dump.txt','rb')

d=pickle.load(f)

f.close()

print(d)

#{'age': 20, 'name': 'Bob', 'score': 88}

#pickle的问题和所有其他编程语言特有的序列化问题一样，就是它只能用于Python，并且可能不同版本的Python彼此都不兼容，因此，只能用pickle保存那些不重要的

操作文件和目录

import os

#在操作系统中定义的环境变量，全部保存在os.environ这个变量中，可以直接查看：

print(os.environ)

'''

environ({'PROCESSOR_ARCHITECTURE': 'AMD64', 'PROCESSOR_IDENTIFIER': 'Intel64 Family 6 Model 60 Stepping 3, GenuineIntel', 'PSMODULEPATH': 'C:\\Program Files\\WindowsPowerShell\\Modules;C:\\Windows\\system32\\WindowsPowerShell\\v1.0\\Modules', 'USERDNSDOMAIN': 'GTICOM.CN',

...})

'''

#要获取某个环境变量的值，可以调用os.environ.get('key'):

print(os.environ.get('PATH'))

'''

'C:\\ProgramData\\Oracle\\Java\\javapath;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;D:\\Program Files\\TortoiseSVN\\bin;E:\\work;C:\\Users\\li.wu\\AppData\\Local\\Programs\\Python\\Python35\\Scripts\\;C:\\Users\\li.wu\\AppData\\Local\\Programs\\Python\\Python35\\;C:\\Users\\li.wu\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Program Files\\Java\\jdk1.8.0_73\\bin;'

'''

os.environ.get('x','default')

#'default'

#操作文件和目录的函数一部分放在os模块中，一部分放在os.path模块中。

os.getcwd() 获取当前工作目录

os.chdir('e:/work') 变更当前工作目录为e:/work

os.path.abspath('.') 查看当前目录的绝对路径

os.path.join('e:/work','exam') 合并路径

os.mkdir('e:/work/exam') 创建目录

os.makedirs('e:\delicious\walnut\waffles') 有必要时创建所有目录

os.makedirs()将创建所有必要的中间文件夹，目的是确保完整路径名存在

os.rmdir('e:/work/exam') 删除目录

os.rename('w.txt','test.py') 对文件重命名

os.remove('test.py') 删除文件

os.listdir(dirname) 返回dirname下的所有目录和文件

列出当前目录下所有的.py文件

[x for x in os.listdir('.') if os.path.isfile(x) and os.path.splitext(x)[1]=='.py']

#['err.py', 'hell.py', 'hello.py', 'IOExample.py', 'learning.py', 'mydict2.py', 'mydict_test.py']

os.curdir 返回当前目录'.'

os.path.isdir(name) 判断name是不是一个目录，name不是目录就返回false

os.path.isfile(name) 判断name是不是一个文件，不存在name也返回false

os.path.isabs(path) 判断是否是绝对路径，就返回True,如果参数是一个相对路径，就返回False.

os.path.exists(name) 判断是否存在文件或目录name

os.path.getsize(name) 获得文件大小，如果name是目录返回0

os.path.abspath(name) 获得绝对路径

os.path.normpath(path) 规范path字符串形式

os.path.basename(path) 返回文件名

os.path.basename(path)将返回一个字符串，它包含path参数中最后一个斜杠之后的所有内容。

os.path.dirname(path) 返回文件路径

os.path.dirname(path)将返回一个字符串，它包含path参数中最后一个斜杠之前的所有内容

os.path.relpath(path,start) 返回相对路径

从start路径到path的相对路径的字符串。如果没有提供start，就使用当前工作目录作为开始路径。

通过os.path.join()函数，可以正确处理不同操作系统的路径分隔符。

#在Linux/Unix/Mac下，os.path.join()返回的路径分隔符是'/'，在windows下os.path.join()返回的路径分隔符是'\'.

os.path.split()函数分割目录中的路径与文件

os.path.split('/Users/michael/testdir/file.txt')

#('/Users/michael/testdir', 'file.txt')

os.path.sep 返回路径中的分隔符

calcFilePath='c:\\Windows\\System32\\calc.exe'

calcFilePath.split(os.path.sep)

#['c:', 'Windows', 'System32', 'calc.exe']

os.path.splitext() 分割目录与文件的扩展名

os.path.splitext('/path/to/file.txt')

#('/path/to/file', '.txt')

这些合并、拆分路径的函数并不要求目录和文件要真实存在，它们只对字符串进行操作

#复制文件的函数copyfile()可在shutil模块中找到,shutil模块中还有很多其他的实用函数。

* os.walk

for i,j,k in os.walk('c:\\delicious'): 在循环的每次迭代中，返回3个值：当前文件夹名称的字符串(c:\delicious)、当前文件夹中子文件夹的字符串的列表、当前文件夹中文件的字符串列表。

单个的句点（‘点’）用作文件夹目录名称时，是‘这个目录’的缩写。两个句点（‘点点’）意思是父文件夹。

* shutil模块

shutil.copy(source,destination) 复制文件

将路径source处的文件复制到路径destination处的文件夹。如果destination是一个文件名，它将作为被复制文件的新名字。

#该函数返回一个字符串，表示被复制文件的路径。

import shutil,os

os.chdir('e:\work')

shutil.copy('e:\work\dump.txt','e:\delicious\dump3.txt')

#'e:\\delicious\\dump3.txt'

shutil.copy('e:\work\dump.txt','e:\delicious')

#decode('gbk').encode('utf-8')

#表示先将其gbk解码，再用utf-8编码，再输出

#decode('utf-8').encode('gbk')

#表示先对其utf-8解码，然后再gbk编码。

IO文件相关操作的更多相关文章

Git基本命令 -- 基本工作流程 + 文件相关操作
可以先找一个已经被git管理的项目, 我就使用这个项目吧: https://github.com/solenovex/ID3-Editor 基本工作流程克隆以后呢, 进入该目录查看一下状态: 然后添 ...
python文件相关操作
Python文件相关操作打开文件打开文件,采用open方法,会将文件的句柄返回,如下: f = open('test_file.txt','r',encoding='utf-8') 在上面的代码中 ...
VC++文件相关操作的函数封装实现
在开发编译工具中,需要用到文件的相关操作,于是就封装了相关的函数实现: //判断文件是否存在 BOOL FileIsExist(CString strFileName) { CFileFind fin ...
UWP中的文件相关操作
最近开始做UWP开发,图省事儿就把自己之前一个Winform项目的一部分代码拷贝到了新写的UWP项目中来.整出了一些幺蛾子,下面做一个记录. 首先提一个重点就是:UWP里关于文件的操作尽量用Stora ...
【原创】Linux基础之gz文件相关操作
gz文件不需要解压即可进行相关操作 $ zcat test.log.gz $ zmore test.log.gz $ zless test.log.gz $ zgrep '1.2.3.4' test. ...
Nodejs文件相关操作
欢迎关注我的博客我在马路边适用人群本文适用于刚接触Node的小白,毕竟我也是小白,大佬请绕行. Node文件操作在实际开发中遇到很多有关文件及文件夹的操作,比如创建.删除文件及文件夹,文件拷贝. ...
linux学习笔记一----------文件相关操作
一.目录结构二.文件管理操作命令(有关文件夹操作,使用Tab键自动补全文件名(如果多个默认第一个)) 1.ls 查看目录信息:ls -l 查看目录详细信息(等价于ll 某些系统不支持) 2.pwd ...
UNIX高级环境编程（5）Files And Directories - 文件相关时间，目录文件相关操作
1 File Times 每个文件会维护三个时间字段,每个字段代表的时间都不同.如下表所示: 字段说明: st_mtim(the modification time)记录了文件内容最后一次被修改的时 ...
C++学习7-面向对象编程基础（多态性与虚函数、 IO文件流操作）
多态多态性是指对不同类的对象发出相同的消息将返回不同的行为,消息主要是指类的成员函数的调用,不同的行为是指不同的实现: 函数重载函数重载是多态性的一种简单形式,它是指允许在相同的作用域内,相同的函 ...

随机推荐

[JavaScript] - form表单转json的插件
jquery.serializejson.js 之前好像记录过,做项目又用到了再记下在页面中引入js后就可以使用了示例: //点击设置微信信息的form表单提交按钮后,执行wxConfig的con ...
02_Kafka单节点实践
1.实践场景开始前的准备条件: 1) 确认各个节点的jdk版本,将jdk升级到和kafka配套的版本(解压既完成安装,修改/etc/profile下的JAVA_HOME,source /etc/pr ...
Linux基础※※※※Linux中的图形相关工具
kolourPaint类似于Win中个mspaint: Ubuntu安装:sudo apt-get install kolourpaint4 图1 kolourPaint界面其他类似的画图工具见链接 ...
shell while 语句
普通循环格式: while condition do command done 例子一 #!/bin/bash )) do echo $int let "int++" done 结 ...
mysql 超大数据/表管理技巧
如果你对长篇大论没有兴趣,也可以直接看看结果,或许你对结果感兴趣.在实际应用中经过存储.优化可以做到在超过9千万数据中的查询响应速度控制在1到20毫秒.看上去是个不错的成绩,不过优化这条路没有终点,当 ...
java static关键字使用
一.使用static声明属性 1.使用static声明属性,则该属性属于全局变量(有些地方也称静态属性). 2.类的属性调用格式: 类名称.static 属性Preson.country=B城; 二. ...
Codeforces 595C - Warrior and Archer
595C - Warrior and Archer 思路:设最后答案的区间为[l,r],那么r-l等于n/2,因为在(l,r)中的点都是其中一个人挖掉的,[0,l)和(r,n]中的点是另一个人挖掉的, ...
react新的生命周期
一. react16当前生命周期 componentWillMountrender前,所以setState不会重新渲染,服务端渲染唯一调用,推荐用constructor代替之 render compo ...
C#中的？
1. 可空类型修饰符(?):引用类型可以使用空引用表示一个不存在的值,而值类型通常不能表示为空.例如:string str=null; 是正确的,int i=null; 编译器就会报错.为了使值类型也 ...
Eclipse 打包Web项目
使用插件fatjar Fat jar插件 http://kurucz-grafika.de/fatjar eclipse菜单栏 help->install new software...-> ...

IO文件相关操作

IO文件相关操作的更多相关文章

随机推荐

热门专题