IO编程
IO 即Input/Output input stream 就是数据从外面(磁盘、网络)流进内存,output stream 就是数据从内存流到外面去。
通常cpu 和 内存的速度远远高于外设的速度,所以在IO编程中,存在速度严重不匹配的问题。
例,把100M的数据写入磁盘,CPU输出100M的数据只需要0.01秒,可是磁盘要接收这100M数据可能需要10秒。于是有同步IO和异步IO;
同步IO是指 CPU等程序执行完后续代码,等100M的数据在10秒后写入磁盘,再接着往下执行
异步IO是指 CPU不等待,在磁盘写数据的时候,CPU去执行其他的程序。
异步IO编写的程序性能远高于同步IO,但是异步IO的编程模型复杂。
操作IO的能力都是由操作系统提供的,每一种编程语言都会把操作系统提供的低级C接口封装起来方便使用,Python也一样。
open()
* UnicodeDecodeError 非法编码的字符可通过 errors参数设置为忽略
字符串的读取可以添加参数encoding,binary文件的读取不可设置此参数
f=open('/users/michael/gbk.txt','r',encoding='utf8',errors='ignore')
打开文件的模式有 'r',‘w','a' 读,写,添加
’r+','w+','a+' +表示以前面的那个字符的模式打开文件,除了那个字符的模式外还可以进行另一种模式的操作
'rb','wb,'ab' b表示该文件是二进制文件,比如图片、视频等
r 只读模式,文件不存在会报错,指针位于文件开头
w 只写模式,文件不存在则自动创建,文件存在会先清空内容再写,指针位于文件末尾
a 添加模式,文件不存在则创建,文件存在则在末尾接着写,指针位于文件末尾
r+ 打开后可读写,文件不存在会报错,指针位于文件开头,写文件会逐字覆盖,写完后指针位于写的最后一个字节处,再read()会从当前位置接着往后读
w+ 打开后可读写,文件不存在则创建,文件存在则会清空已存在的内容,指针位于文件末尾
a+ 打开后可读写,文件不存在则创建,存在则从文件末尾开始读写,指针位于文件末尾
当指针位于文件末尾时,可以使用seek()来移动文件中指针的位置
f=open(filename,'w+')
f.seek(0) #将指针移到文件开头
f.read()
f.seek(-10,2) #seek的第二个参数为2时表示从文件的末尾处开始移动,-10表示向前移动10个字节
读文件
不传入open()的第二个参数,则默认为‘r'读模式
f=open('e:/work/e.txt','r')
#'r'表示读
print(f.read())
#如果文件打开成功,调用read()方法可以一次性读取全部内容,Python把内容读到内存,用一个str 对象表示
#最后一步是调用close()方法关闭文件。文件使用完毕后必须关闭,因为文件对象会占用系统资源,并且操作系统同时能打开的文件数量也是有限的:
#f.close()
#由于文件读写时都可能产生IOError,一旦出错,后面的f.close()就不会调用。所以,为了保证无论是否出错都能正确地关闭文件,我们可以使用try...finally来实现:
'''
try:
f=open('/path/to/file','r')
print(f.read())
finally:
if f:
f.close()
'''
#但是每次都这么写实在太繁琐,所以,Python 引入了with语句来自动帮我们调用close()方法;
'''
with open('/path/to/file','r') as f:
print(f.read())
'''
#这和前面的try...finally 是一样的,但是代码更简洁,并且不必调用f.close()方法。
#调用read()会一次性读取文件的全部内容,如果文件有10G,内存就爆了,所以,要保险起见,可以反复调用read(size)方法,每次最多读取size个字节的内容。
#调用readline()可以每次读取一行内容,调用readlines()一次读取所有内容并按行返回list,每个字符串值都以一个换行符\n结束。可以根据需要选择合适的调用。
for line in f.readlines():
print(line.strip()) # 把末尾的'\n'删掉
f.close()
* file-like object
像open()函数返回的这种有个read()方法的对象,在Python中统称为file-like object 。除了file外,还可以是内存的字节流,网络流,自定义流等等。
#file-like object 不要求从特定类继承,只要写个read()方法就行。
StringIO就是在内存中创建的file-like object ,常用作临时缓冲。
StringIO在内存中读写str
BytesIO在内存中读写二进制数据bytes
#要把str写入StringIO,我们需要先创建一个StringIO,然后,像文件一样写入即可:
'''
>>> from io import StringIO
>>> f=StringIO()
>>> f.write('hello')
5
>>>f.write(' ')
1
>>> f.write('jsdjk')
>>> print(f.getvalue())
hello jsdjk
'''
#交互式环境下f.write()返回的是写入的str的长度
#getvalue()方法用于获得写入后的str.
#要读取StringIO,可以用一个str初始化StringIO,然后像读文件一样读取:
from io import StringIO
f=StringIO('Hello!\nHi!\nGoodbyte!')
while True:
s=f.readline()
if s=='':
break
print(s.strip())
#strip()的作用是去掉字符串前后的空格
#b'\xe4\xb8\xad\xe6\x96\x87'
#BytesIO的使用类似StringIO,需创建一个BytesIO,然后写入一些bytes:
from io import BytesIO
f=BytesIO()
f.write('中文'.encode('utf-8'))
print(f.getvalue())
#请注意,写入的不是str,而是经过utf-8编码的bytes.
#用一个bytes初始化bytesIO,然后,像读文件一样读取:
f=BytesIO(b'\xe4\xb8\xad\xe6\x96\x87')
print(f.read())
如果传递给open()的文件名不存在,写模式和添加模式都会创建一个新的空文件,在读取或写入文件后,调用close()方法,然后才能再次打开该文件。
写文件时,操作系统往往不会立刻把数据写入磁盘,而是放到内存缓存起来,空闲的时候再慢慢写入。
只有调用close()方法时,操作系统才保证把没有写入的数据全部写入磁盘。忘记调用close()的后果是数据可能只写了一部分到磁盘,剩下的丢失了。所以还是用with语句来的保险:
with open('e:/work/w.txt','w') as f:
f.write('this is write with python\'s \'with\' function,whitch dosen\'t need \'close\' function to close fiel')
* shelve模块保存变量
#利用shelve模块,可以将Python程序中的变量保存到二进制的shelf文件中,程序就可以从硬盘中恢复变量的数据。
import shelve
shelfFile=shelve.open('mydata') 有则打开,没有则创建mydata
cats=['Zophis','Pooks','Simon']
shelfFile['cats']=cats
shelfFile.close()
#我们创建了一个列表cats,并写下shelfFile['cats']=cats,将该列表保存在shelfFile中,作为键’cat'关联的值(就像在字典中一样)。
#在Windows上运行以上代码,可以在当前工作目录下看到3个新文件;mydata.bak/mydata.dat和mydata.dir .
#重新打开这些文件取出数据时,shelf值不必用读模式或写模式打开,因为它们在打开后,既能读又能写。
shefFile=shelve.open('mydata')
type(shelfFile)
#<class 'shelve.DbfilenameShelf'>
print(shelfFile['cats'])
#['Zophis', 'Pooka', 'Simon']
shelfFile.close()
#这里,我们打开了shelf文件,检查我们的数据是否正确存储。输入shelfFile['cat']将返回我们前面保存的同一个列表,所以我们就知道该列表得到了正确存储,
#然后我们调用close().
#就像字典一样,shelf值有keys()和values()方法,返回shelf中键和值的类似列表的值。
#因为这些方法返回类似列表的值,而不是真正的列表,所以应该将它们传递给list()函数,取得列表的形式。
shelfFile=shelve.open('mydata')
print(list(shelfFile.keys()))
print(list(shelfFile.values()))
* pprint.pformat()函数保存变量
import pprint
cats=[{'name':'Zophie','desc':'chubby'},{'name':'Pooka','desc':'fluffy'}]
pprint.pformat(cats) #返回cats变量的字符串形式
fileObj=open('myCats.py','w')
fileObj.write('cats= '+pprint.pformat(cats)+'\n')
fileObj.close()
#当我们有了cats中数据的字符串形式,就很容易将该字符串写入一个文件,我们将它命名为myCats.py
#import 语句导入的模块本身就是Python脚本。如果来自pprint.pformat()的字符串保存为一个.py文件,该文件就是一个可以导入的模块,像其他模块一样。
#由于Python脚本本身也是带有.py文件扩展名的文本文件,所以你的Python程序甚至可以生成其他Python程序。然后将这些文件导入到脚本中。
import myCats
print(myCats.cats)
#[{'name':'Zophie','desc':'chubby'},{'name':'Pooka','desc':'fluffy'}]
print(myCats.cats[0])
#{'name':'Zophie','desc':'chubby'}
myCats.cats[0]['name']
#'Zophie'
#创建一个.py文件(而不是利用shelve模块保存变量)的好处在于,因为它是一个文本文件,所以任何人都可以用一个简单的文本编辑器读取和修改该文件的内容。
#但是,对于大多数应用,利用shelve模块来保存数据,是将变量保存到文件的最佳方式。
#只有基本数据类型,诸如整型、浮点型、字符串、列表和字典,可以作为简单文本写入一个文件。例如,File对象就不能编码为文本。
* 序列化
#在程序运行的过程中,所有的变量都在内存中,例,定义一个dic:
d=dict(name='Bob',age=20,score=88)
#可以随时修改变量,例把name改成bill,但是一旦程序结束,变量所占用的内存就被操作系统全部回收。如果没有把修改后的bill存储到磁盘上,下次重新运行程序
#变量又被初始化为Bob。
变量从内存中变成可存储或传输的过程称之为序列化,在Python中叫pickling,在其他语言中也被称之为serialization,marshalling,flattening等
#序列化后,就可以把序列化后的内容写入磁盘,或者通过网络传输到别的机器上。
把变量内容从序列化的对象重新读到内存里称之为反序列化,即unpickling
import pickle
d=dict(name='Bob',age=20,score=88)
pickle.dumps(d)
#pickle.dumps()方法把任意对象序列化成一个bytes,然后,就可以把这个bytes写入文件。
#或者用另一个方法pickle.dump()直接把对象序列化后写入一个file-like object:
f=open('dump.txt','wb')
pickle.dump(d,f)
f.close()
#当我们要把对象从磁盘读到内存时,可以先把内容读到一个bytes,然后用pickle.loads()方法反序列化出对象,
#也可以直接用pickle.load()方法从一个file-like object中直接反序列化出对象。
f=open('dump.txt','rb')
d=pickle.load(f)
f.close()
print(d)
#{'age': 20, 'name': 'Bob', 'score': 88}
#pickle的问题和所有其他编程语言特有的序列化问题一样,就是它只能用于Python,并且可能不同版本的Python彼此都不兼容,因此,只能用pickle保存那些不重要的
操作文件和目录
import os
#在操作系统中定义的环境变量,全部保存在os.environ这个变量中,可以直接查看:
print(os.environ)
'''
environ({'PROCESSOR_ARCHITECTURE': 'AMD64', 'PROCESSOR_IDENTIFIER': 'Intel64 Family 6 Model 60 Stepping 3, GenuineIntel', 'PSMODULEPATH': 'C:\\Program Files\\WindowsPowerShell\\Modules;C:\\Windows\\system32\\WindowsPowerShell\\v1.0\\Modules', 'USERDNSDOMAIN': 'GTICOM.CN',
...})
'''
#要获取某个环境变量的值,可以调用os.environ.get('key'):
print(os.environ.get('PATH'))
'''
'C:\\ProgramData\\Oracle\\Java\\javapath;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;D:\\Program Files\\TortoiseSVN\\bin;E:\\work;C:\\Users\\li.wu\\AppData\\Local\\Programs\\Python\\Python35\\Scripts\\;C:\\Users\\li.wu\\AppData\\Local\\Programs\\Python\\Python35\\;C:\\Users\\li.wu\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Program Files\\Java\\jdk1.8.0_73\\bin;'
'''
os.environ.get('x','default')
#'default'
#操作文件和目录的函数一部分放在os模块中,一部分放在os.path模块中。
os.getcwd() 获取当前工作目录
os.chdir('e:/work') 变更当前工作目录为e:/work
os.path.abspath('.') 查看当前目录的绝对路径
os.path.join('e:/work','exam') 合并路径
os.mkdir('e:/work/exam') 创建目录
os.makedirs('e:\delicious\walnut\waffles') 有必要时创建所有目录
os.makedirs()将创建所有必要的中间文件夹,目的是确保完整路径名存在
os.rmdir('e:/work/exam') 删除目录
os.rename('w.txt','test.py') 对文件重命名
os.remove('test.py') 删除文件
os.listdir(dirname) 返回dirname下的所有目录和文件
列出当前目录下所有的.py文件
[x for x in os.listdir('.') if os.path.isfile(x) and os.path.splitext(x)[1]=='.py']
#['err.py', 'hell.py', 'hello.py', 'IOExample.py', 'learning.py', 'mydict2.py', 'mydict_test.py']
os.curdir 返回当前目录'.'
os.path.isdir(name) 判断name是不是一个目录,name不是目录就返回false
os.path.isfile(name) 判断name是不是一个文件,不存在name也返回false
os.path.isabs(path) 判断是否是绝对路径,就返回True,如果参数是一个相对路径,就返回False.
os.path.exists(name) 判断是否存在文件或目录name
os.path.getsize(name) 获得文件大小,如果name是目录返回0
os.path.abspath(name) 获得绝对路径
os.path.normpath(path) 规范path字符串形式
os.path.basename(path) 返回文件名
os.path.basename(path)将返回一个字符串,它包含path参数中最后一个斜杠之后的所有内容。
os.path.dirname(path) 返回文件路径
os.path.dirname(path)将返回一个字符串,它包含path参数中最后一个斜杠之前的所有内容
os.path.relpath(path,start) 返回相对路径
从start路径到path的相对路径的字符串。如果没有提供start,就使用当前工作目录作为开始路径。
通过os.path.join()函数,可以正确处理不同操作系统的路径分隔符。
#在Linux/Unix/Mac下,os.path.join()返回的路径分隔符是'/',在windows下os.path.join()返回的路径分隔符是'\'.
os.path.split()函数 分割目录中的路径与文件
os.path.split('/Users/michael/testdir/file.txt')
#('/Users/michael/testdir', 'file.txt')
os.path.sep 返回路径中的分隔符
calcFilePath='c:\\Windows\\System32\\calc.exe'
calcFilePath.split(os.path.sep)
#['c:', 'Windows', 'System32', 'calc.exe']
os.path.splitext() 分割目录与文件的扩展名
os.path.splitext('/path/to/file.txt')
#('/path/to/file', '.txt')
这些合并、拆分路径的函数并不要求目录和文件要真实存在,它们只对字符串进行操作
#复制文件的函数copyfile()可在shutil模块中找到,shutil模块中还有很多其他的实用函数。
* os.walk
for i,j,k in os.walk('c:\\delicious'): 在循环的每次迭代中,返回3个值:当前文件夹名称的字符串(c:\delicious)、当前文件夹中子文件夹的字符串的列表、当前文件夹中文件的字符串列表。
单个的句点(‘点’)用作文件夹目录名称时,是‘这个目录’的缩写。 两个句点(‘点点’)意思是父文件夹。
* shutil模块
shutil.copy(source,destination) 复制文件
将路径source处的文件复制到路径destination处的文件夹。如果destination是一个文件名,它将作为被复制文件的新名字。
#该函数返回一个字符串,表示被复制文件的路径。
import shutil,os
os.chdir('e:\work')
shutil.copy('e:\work\dump.txt','e:\delicious\dump3.txt')
#'e:\\delicious\\dump3.txt'
shutil.copy('e:\work\dump.txt','e:\delicious')
#decode('gbk').encode('utf-8')
#表示先将其gbk解码,再用utf-8编码,再输出
#decode('utf-8').encode('gbk')
#表示先对其utf-8解码,然后再gbk编码。
- Git基本命令 -- 基本工作流程 + 文件相关操作
可以先找一个已经被git管理的项目, 我就使用这个项目吧: https://github.com/solenovex/ID3-Editor 基本工作流程 克隆以后呢, 进入该目录查看一下状态: 然后添 ...
- python文件相关操作
Python文件相关操作 打开文件 打开文件,采用open方法,会将文件的句柄返回,如下: f = open('test_file.txt','r',encoding='utf-8') 在上面的代码中 ...
- VC++文件相关操作的函数封装实现
在开发编译工具中,需要用到文件的相关操作,于是就封装了相关的函数实现: //判断文件是否存在 BOOL FileIsExist(CString strFileName) { CFileFind fin ...
- UWP中的文件相关操作
最近开始做UWP开发,图省事儿就把自己之前一个Winform项目的一部分代码拷贝到了新写的UWP项目中来.整出了一些幺蛾子,下面做一个记录. 首先提一个重点就是:UWP里关于文件的操作尽量用Stora ...
- 【原创】Linux基础之gz文件相关操作
gz文件不需要解压即可进行相关操作 $ zcat test.log.gz $ zmore test.log.gz $ zless test.log.gz $ zgrep '1.2.3.4' test. ...
- Nodejs文件相关操作
欢迎关注我的博客我在马路边 适用人群 本文适用于刚接触Node的小白,毕竟我也是小白,大佬请绕行. Node文件操作 在实际开发中遇到很多有关文件及文件夹的操作,比如创建.删除文件及文件夹,文件拷贝. ...
- linux学习笔记一----------文件相关操作
一.目录结构 二.文件管理操作命令(有关文件夹操作,使用Tab键自动补全文件名(如果多个默认第一个)) 1.ls 查看目录信息:ls -l 查看目录详细信息(等价于ll 某些系统不支持) 2.pwd ...
- UNIX高级环境编程(5)Files And Directories - 文件相关时间,目录文件相关操作
1 File Times 每个文件会维护三个时间字段,每个字段代表的时间都不同.如下表所示: 字段说明: st_mtim(the modification time)记录了文件内容最后一次被修改的时 ...
- C++学习7-面向对象编程基础(多态性与虚函数、 IO文件流操作)
多态 多态性是指对不同类的对象发出相同的消息将返回不同的行为,消息主要是指类的成员函数的调用,不同的行为是指不同的实现: 函数重载 函数重载是多态性的一种简单形式,它是指允许在相同的作用域内,相同的函 ...
随机推荐
- 遍历GroupBox上的所有的textbox
foreach (Control c in groupBox1.Controls) { if (c is TextBox) { //这里写代码逻辑 } } 遍历的时候,需要用Control遍历: 如果 ...
- BZOJ1296: [SCOI2009]粉刷匠 DP
Description windy有 N 条木板需要被粉刷. 每条木板被分为 M 个格子. 每个格子要被刷成红色或蓝色. windy每次粉刷,只能选择一条木板上一段连续的格子,然后涂上一种颜色. 每个 ...
- 查找SQL 存储过程、触发器、视图!
ALTER proc [dbo].[SP_SQL](@ObjectName sysname) as set nocount on ; declare @Print nvarchar(max)-- ...
- jekins 插件离线安装
官网插件地址:http://updates.jenkins-ci.org/download/plugins/ 系统管理->插件管理->高级 选择一个下载好的插件,然后点击上传即可 然后就会 ...
- Qt5_qtconfig
1.http://tieba.baidu.com/p/3225596765 QtConfig was removed in Qt5. If you want to force Qt5 to use a ...
- NIO 之 ByteBuffer
前言 对于刚接触ByteBuffer人来说,想要完全理解会稍微有点困难,正巧前几天有人问我,想到好久没写文章,就整理一下. 概念理解 对于ByteBuffer的一些概念不理解的情况下,如果直接打开源码 ...
- Python 错误与异常
2017-08-01 13:40:17 在程序运行过程中,总会遇到各种各样的错误. 有的错误是程序编写有问题造成的,比如本来应该输出整数结果输出了字符串,这种错误我们通常称之为bug,bug是必须修复 ...
- English trip -- VC(情景课)4 A Health
Word doctor doctor's office medicine [ˈmɛdɪsɪn] n. 药:医学:内科:巫术 vt. 用药物治疗:给…用药 pill n. 药丸 nurse ...
- java.lang.RuntimeException: Unable to start activity ComponentInfo{com.autumn.book/com.autumn.book.MainActivity}: android.os.NetworkOnMainThreadException
不能把http请求写在主线程里,改为这样 Runnable runnable = new Runnable() { public void run() { HttpClient.post2(" ...
- 『科学计算』通过代码理解线性回归&Logistic回归模型
sklearn线性回归模型 import numpy as np import matplotlib.pyplot as plt from sklearn import linear_model de ...