python_IO编程
本篇文章将介绍python里面的I/O编程。更多内容请参考:python学习指南
I/O编程
读写文件时最常见的IO操作。Python内置了读写文件的函数,用法和C是兼容的。
读写文件前,我们必须了解一下,在磁盘上读写文件的功能都是由操作系统提供的,现代操作系统不允许普通的程序直接操作磁盘,所以,读写文件就是请求操作系统打开一个文件对象(通常称为文件描述符),然后,通过操作系统提供的接口从这个文件对象中读取数据(读文件),或者把数据写入这个文件对象(写文件)。
在I/O编程中,Stream(流)是一种重要的概念,分为输入流(Input Stream)和输入流(Output Stream)。我们可以把流理解为一个水管,一个负责输入,一个负责输出,这样读写就可以实现同步。
文件读写
打开文件
读写文件是最常见的IO操作。Python内置了读写文件的函数,方便了文件的IO操作。
文件读写之前需要打开文件,确定文件的读写模式。open函数用来打开文件,语法如下:
open(name[, mode[, buffering]])
open函数使用一个文件作为唯一的强制参数,然后返回一个文件对象。模式(mode)和缓冲区(buffering)参数都是可选的,默认模式是读模式,默认缓冲区是无。
如果文件不存在,open()
函数就会抛出一个IOError
错误,并且给出错误码和详细的信息告诉你文件不存在:
>>>f = open("user/michael/notfound.txt", "r")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
FileNotFoundError: [Errno 2] No such file or directory: 'user/michael/notfound.txt'
文件模式
open函数打开中的mode参数,通过改变mode参数可以实现对文件的不同操作
值 | 功能描述 |
---|---|
'r' | 读模式 |
'w' | 写模式 |
'a' | 追加模式 |
'b' | 二进制模式(可添加到其它模式中使用) |
'+' | 读/写模式(可添加到其它模式中使用) |
一般处理文本文件时,是用不到'b'参数的,但如果处理其它类型的文件(二进制文件),比如mp3或者图形,就应该在模式中加上'b',这在爬虫中处理媒体文件很常用。
文件缓冲区
open
函数中第三个可选参数buffering
控制着文件的缓冲。如果参数是0,I/O操作就是无缓冲的,直接将数据写到硬盘上;如果参数是1,I/O操作就是有缓冲的,数据先写入到内存里,只有使用flush
函数或者close
函数才会将数据更新到硬盘;如果参数大于1的数据则代表着缓冲区的大小(单位是字节),-1(或者任何负数)代表使用默认缓冲区的大小。
文件读取
文件读取主要分为按字节读取和按行读取,经常用到的方法有read()
、readline()
、readlines()
、close()
。
>>>f = open(r"c:\\text\\xiaoqi.txt", "r")
>>>f.read() #调用read()方法可以一次性地将文件内容全部读到内存中
'xiaoqi'
f.close() #文件读取完成后必须关闭
由于文件操作可能会出现IO异常,一旦出现IO异常,后面的close()
方法就不会调用。所以为了保证程序的健壮性,我们需要使用try...finally来实现。
try
f = open(r'c:\\text\\xiaoqi.txt')
print(f.read())
finally:
if f:
f.close()
Python提供了一种更加简单有趣的写法,使用with语句来替代try...finally
代码块和close()
方法
with open(r'c:\text\xiaoqi.txt') as fileReader:
print(fileReader.read())
利用read()
一次将文件内容读到内存,但是如果文件过大,将会出现内存不足的问题。一般对于大文件,可以重复调用read(size)
方法,一次最多读取size个字节。如果文件是文本文件,Python提供了更加合理的做法,调用了readline()
可以每次读取一行内容,调用readlines()
一次读取所有内容并按行返回列表。大家可以根据自己的具体需求采取不同的读取方式:
- 小文件可以直接采取read()方法读到内存;
- 大文件更加安全的方法是连续调用read(size);
- 面对于配置文件等文本文件,使用readlines()方法更加合理
with open(r'c:\\text\\ss.txt') as fileReader:
for line in fileReader.readlines():
print(line.strip())
文件写入
写文件和读文件是一样的,唯一的区别实在调用open方法时,传入标识符w
或者wb
表示写入文本文件或者写入二进制文件,示例如下:
f = open(r'c:\text\qie.txt', 'w')
f.write('xiaoqi')
f.close()
我们可以反复调用write()
方法写入文件,最后必须使用close()
方法来关闭文件。使用write()
方法的时候,操作系统不是立即将数据写入文件中的,而是先写入内存中缓存起来,等到空闲时候再写入文件中,最后使用close()
方法就将数据完整地写入文件中了。当然也可以使用f.flush()
方法,不断地将数据立即写入文件中,最后使用close()
方法来关闭文件。和读文件同样道理,文件操作中可能会出现IO异常,所以还是推荐使用with语句:
with open(r'c:\text\csd.txt', 'w') as fileWriter:
fileWriter.write('sdfs')
file-like Object
像open()
函数返回的这种有个read()
方法的对象,在Python中统称为file-like Object,除了file外,还可以是内存的字节流,网路流,自定义流等。file-like Object不要求从特定类继承,只要写个read()
方法就行。
StringIO
就是内存中创建的file-like Object,常用作临时缓冲。
二进制文件
一般我们用open()
读取的是文本文件,并且是UTF-8
编码的文本文件。要读取二进制文件,比如图片、视频,就需要用rb
模式打开文件:
f = open("/Users/michael/test.jpg", 'rb')
f.read()
b'\xff\xd8\xff\xe1\x00\x18Exif\x00\x00...' # 十六进制表示的字节
字符编码
要读取非UTF-8编码的文本文件,需要给open()
函数传入encoding
参数,例如,读取GBK编码的文件:
f = open("/Users/michael/gbk.text", "r", encoding="gbk")
f.read()
'测试'
遇到有些编码不规范的文件,你可能会遇到UnicodeDecodeError,因为在文本文件中可能夹杂了一些非法编码的字符。遇到这种情况,open()
函数还接收一个errors
参数,表示如果遇到编码错误后如何处理。最简单的方式是直接忽略:
f = open('/Users/michael/gbk.txt', 'r', encoding='gbk', errors='ignore')
StringIO
很多时候,数据读写并不一定是文件也可以在内幕才能中读写。
StringIO顾名思义就是在内存中读写str。
要把str写入StringIO,我们需要先创建一个StringIO,然后,像文件一样写入即可:
>>>from io import StringIO
>>>f = StringIO()
>>>f.write('hello')
5
>>>f.write(" ")
1
>>>f.write("world!")
6
>>>print(f.getvalue()) #getvalue()方法用于获得写入后的str
'hello world!'
要读取StringIO,可以用一个str初始哈StringIO,然后,像读文件一样读取:
>>>from io import StringIO
>>>f = StringIO("Hello!\nGoodbye!")
>>>while True:
s = f.readline()
if s == " ":
break
print(s.strip())
Hello!
Hi!
Goodbye
BytesIO
StringIO操作的只能是str,如果要操作二进制数据,就需要使用ByetsIO.
BytesIO实现了在内存中读写bytes,我们创建了一个BytesIO,然后写入一些bytes
>>>from io import BytesIO
>>>f = BytesIO()
>>>f.write('中文'.encode("utf-8"))
6
>>>print(f.getvalues)
b'\xe4\xb8\xad\xe6\x96\x87'
注意:写入的不是str,而是经过UTF-8编码的bytes。
和StringIO类似,可以用一个bytes初始化BytesIO,然后,像读文件一样读取:
>>>from io import BytesIO
>>>f = BytesIO(b'\xe4\xb8\xad\xa6\x96\x87')
>>>f.read()
b'\xe4\xb8\xad\xe6\x96\x87'
参考
python_IO编程的更多相关文章
- 从直播编程到直播教育:LiveEdu.tv开启多元化的在线学习直播时代
2015年9月,一个叫Livecoding.tv的网站在互联网上引起了编程界的注意.缘于Pingwest品玩的一位编辑在上网时无意中发现了这个网站,并写了一篇文章<一个比直播睡觉更奇怪的网站:直 ...
- JavaScript之父Brendan Eich,Clojure 创建者Rich Hickey,Python创建者Van Rossum等编程大牛对程序员的职业建议
软件开发是现时很火的职业.据美国劳动局发布的一项统计数据显示,从2014年至2024年,美国就业市场对开发人员的需求量将增长17%,而这个增长率比起所有职业的平均需求量高出了7%.很多人年轻人会选择编 ...
- 读书笔记:JavaScript DOM 编程艺术(第二版)
读完还是能学到很多的基础知识,这里记录下,方便回顾与及时查阅. 内容也有自己的一些补充. JavaScript DOM 编程艺术(第二版) 1.JavaScript简史 JavaScript由Nets ...
- [ 高并发]Java高并发编程系列第二篇--线程同步
高并发,听起来高大上的一个词汇,在身处于互联网潮的社会大趋势下,高并发赋予了更多的传奇色彩.首先,我们可以看到很多招聘中,会提到有高并发项目者优先.高并发,意味着,你的前雇主,有很大的业务层面的需求, ...
- C#异步编程(一)
异步编程简介 前言 本人学习.Net两年有余,是第一次写博客,虽然写的很认真,当毕竟是第一次,肯定会有很多不足之处, 希望大家照顾照顾新人,有错误之处可以指出来,我会虚心接受的. 何谓异步 与同步相对 ...
- UE4新手之编程指南
虚幻引擎4为程序员提供了两套工具集,可共同使用来加速开发的工作流程. 新的游戏类.Slate和Canvas用户接口元素以及编辑器功能可以使用C++语言来编写,并且在使用Visual Studio 或 ...
- C#与C++的发展历程第三 - C#5.0异步编程巅峰
系列文章目录 1. C#与C++的发展历程第一 - 由C#3.0起 2. C#与C++的发展历程第二 - C#4.0再接再厉 3. C#与C++的发展历程第三 - C#5.0异步编程的巅峰 C#5.0 ...
- 猫哥网络编程系列:HTTP PEM 万能调试法
注:本文内容较长且细节较多,建议先收藏再阅读,原文将在 Github 上维护与更新. 在 HTTP 接口开发与调试过程中,我们经常遇到以下类似的问题: 为什么本地环境接口可以调用成功,但放到手机上就跑 ...
- 关于如何提高Web服务端并发效率的异步编程技术
最近我研究技术的一个重点是java的多线程开发,在我早期学习java的时候,很多书上把java的多线程开发标榜为简单易用,这个简单易用是以C语言作为参照的,不过我也没有使用过C语言开发过多线程,我只知 ...
随机推荐
- 《Android源代码设计模式解析与实战》读书笔记(十四)
第十四章.迭代器模式 迭代器模式,又叫做游标模式.是行为型设计模式之中的一个.我们知道对容器对象的訪问必定会涉及遍历算法.我们能够将遍历的方法封装在容器中,或者不提供遍历方法,让使用容器的人自己去实现 ...
- 系统自带vim命令学习教程
[环境] [干货分享] vim或者vi命令在很多linux环境中自带一款学习教程,其教程说明语言还是随系统变化. 输入vimtutor这个命令会打开一款学习神器. 打开之后显示如下,vimtutor一 ...
- Python爬虫Scrapy(二)_入门案例
本章将从案例开始介绍python scrapy框架,更多内容请参考:python学习指南 入门案例 学习目标 创建一个Scrapy项目 定义提取的结构化数据(Item) 编写爬取网站的Spider并提 ...
- Natas Wargame Level25 Writeup(头部注入+POST/GET注入)
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAArsAAAC8CAYAAAB4+WYTAAAABHNCSVQICAgIfAhkiAAAIABJREFUeF
- 多线程day01
多线程作为Java中很重要的一个知识点,在此还是有必要总结一下的. 一.线程的生命周期及五种基本状态 关于Java中线程的生命周期,首先看一下下面这张较为经典的图: 上图中基本上囊括了Java中多线程 ...
- 安装虚拟机后无法SSH远程连接
1.安装虚拟机工具 vmware workstation 2.创建一个虚拟机,系统版本是:CentOS-6.8-x86_64-LiveDVD 3.系统安装完成后,选择网络为桥接模式,如图 4.检查主机 ...
- git学习笔记5-撤销操作
git撤销有四种情况,一是没有commit,想恢复所有文件:二是没有commit,想恢复全部文件:三是已经commit了,想恢复某个版本:四是本地已经提交了,想从远程库恢复. 1. 没有commit, ...
- Angular 非父子组件间的service数据通信
完成思路:以service.ts(主题subject---订阅sbuscribe模式)为数据中转中间件,通过sku.ts的数据更改监测机制,同步更改service.ts中的数据,同时buy.ts组件实 ...
- Servlet与Jsp的结合使用实现信息管理系统一
PS:1:先介绍一下什么是Servlet? Servlet(Server Applet)是Java Servlet的简称,称为小服务程序或服务连接器,用Java编写的服务器端程序,主要功能在于交互式地 ...
- ElasticSearch 学习记录之ES高亮搜索
高亮搜索 ES 通过在查询的时候可以在查询之后的字段数据加上html 标签字段,使文档在在web 界面上显示的时候是由颜色或者字体格式的 GET /product/_search { "si ...