Linux文件读写机制及优化方式

导读	Linux是一个可控性强的，安全高效的操作系统。本文只讨论Linux下文件的读写机制，不涉及不同读取方式如read,fread,cin等的对比，这些读取方式本质上都是调用系统api read，只是做了不同封装。以下所有测试均使用open, read, write这一套系统api

缓存

缓存是用来减少高速设备访问低速设备所需平均时间的组件，文件读写涉及到计算机内存和磁盘，内存操作速度远远大于磁盘，如果每次调用read,write都去直接操作磁盘，一方面速度会被限制，一方面也会降低磁盘使用寿命，因此不管是对磁盘的读操作还是写操作，操作系统都会将数据缓存起来。

Page Cache

页缓存(Page Cache)是位于内存和文件之间的缓冲区，它实际上也是一块内存区域，所有的文件IO(包括网络文件)都是直接和页缓存交互，操作系统通过一系列的数据结构，比如inode, address_space, struct page，实现将一个文件映射到页的级别，这些具体数据结构及之间的关系我们暂且不讨论，只需知道页缓存的存在以及它在文件IO中扮演着重要角色，很大一部分程度上，文件读写的优化就是对页缓存使用的优化

Dirty Page

页缓存对应文件中的一块区域，如果页缓存和对应的文件区域内容不一致，则该页缓存叫做脏页(Dirty Page)。对页缓存进行修改或者新建页缓存，只要没有刷磁盘，都会产生脏页

查看页缓存大小

linux上有两种方式查看页缓存大小，一种是free命令

$ free

             total       used       free     shared    buffers     cached

Mem:      20470840    1973416   18497424        164     270208    1202864

-/+ buffers/cache:     500344   19970496

Swap:            0          0          0

cached那一列就是页缓存大小，单位Byte

另一种是直接查看/proc/meminfo，这里我们只关注两个字段

 Cached:          1202872 kB

 Dirty:                52 kB

Cached是页缓存大小，Dirty是脏页大小

脏页回写参数

Linux有一些参数可以改变操作系统对脏页的回写行为

$ sysctl -a 2>/dev/null | grep dirty

vm.dirty_background_ratio = 10

vm.dirty_background_bytes = 0

vm.dirty_ratio = 20

vm.dirty_bytes = 0

vm.dirty_writeback_centisecs = 500

vm.dirty_expire_centisecs = 3000

vm.dirty_background_ratio是内存可以填充脏页的百分比，当脏页总大小达到这个比例后，系统后台进程就会开始将脏页刷磁盘(vm.dirty_background_bytes类似，只不过是通过字节数来设置);vm.dirty_ratio是绝对的脏数据限制，内存里的脏数据百分比不能超过这个值。如果脏数据超过这个数量，新的IO请求将会被阻挡，直到脏数据被写进磁盘;vm.dirty_writeback_centisecs指定多长时间做一次脏数据写回操作，单位为百分之一秒;vm.dirty_expire_centisecs指定脏数据能存活的时间，单位为百分之一秒，比如这里设置为30秒，在操作系统进行写回操作时，如果脏数据在内存中超过30秒时，就会被写回磁盘.

这些参数可以通过 sudo sysctl -w vm.dirty_background_ratio=5 这样的命令来修改，需要root权限，也可以在root用户下执行 echo 5 > /proc/sys/vm/dirty_background_ratio 来修改

文件读写流程

在有了页缓存和脏页的概念后，我们再来看文件的读写流程

读文件

1.用户发起read操作

2.操作系统查找页缓存

  a.若未命中，则产生缺页异常，然后创建页缓存，并从磁盘读取相应页填充页缓存

  b.若命中，则直接从页缓存返回要读取的内容

3.用户read调用完成

写文件

1.用户发起write操作

2.操作系统查找页缓存

  a.若未命中，则产生缺页异常，然后创建页缓存，将用户传入的内容写入页缓存

  b.若命中，则直接将用户传入的内容写入页缓存

3.用户write调用完成

4.页被修改后成为脏页，操作系统有两种机制将脏页写回磁盘

5.用户手动调用fsync()

6.由pdflush进程定时将脏页写回磁盘

页缓存和磁盘文件是有对应关系的，这种关系由操作系统维护，对页缓存的读写操作是在内核态完成，对用户来说是透明的

文件读写的优化思路

不同的优化方案适应于不同的使用场景，比如文件大小，读写频次等，这里我们不考虑修改系统参数的方案，修改系统参数总是有得有失，需要选择一个平衡点，这和业务相关度太高，比如是否要求数据的强一致性，是否容忍数据丢失等等。优化的思路有以下两点:

1.最大化利用页缓存

2.减少系统api调用次数

第一点很容易理解，尽量让每次IO操作都命中页缓存，这比操作磁盘会快很多，第二点提到的系统api主要是read和write，由于系统调用会从用户态进入内核态，并且有些还伴随这内存数据的拷贝，因此在有些场景下减少系统调用也会提高性能

readahead

readahead是一种非阻塞的系统调用，它会触发操作系统将文件内容预读到页缓存中，并且立马返回，函数原型如下

ssize_t readahead(int fd, off64_t offset, size_t count);

在通常情况下，调用readahead后立马调用read并不会提高读取速度，我们通常在批量读取或在读取之前一段时间调用readahead，假设如下场景，我们需要连续读取1000个1M的文件，有如下两个方案，伪代码如下

直接调用read函数

char* buf = (char*)malloc(10*1024*1024);

for (int i = 0; i < 1000; ++i)

{

    int fd = open_file();

    int size = stat_file_size();

    read(fd, buf, size);

    // do something with buf

    close(fd);

}

先批量调用readahead再调用read

int* fds = (int*)malloc(sizeof(int)*1000);

int* fd_size = (int*)malloc(sizeof(int)*1000);

for (int i = 0; i < 1000; ++i)

{

    int fd = open_file();

    int size = stat_file_size();

    readahead(fd, 0, size);

    fds[i] = fd;

    fd_size[i] = size;

}

char* buf = (char*)malloc(10*1024*1024);

for (int i = 0; i < 1000; ++i)

{

    read(fds[i], buf, fd_size[i]);

    // do something with buf

    close(fds[i]);

}

感兴趣的可以写代码实际测试一下，需要注意的是在测试前必须先回写脏页和清空页缓存，执行如下命令

sync && sudo sysctl -w vm.drop_caches=3

可通过查看/proc/meminfo中的Cached及Dirty项确认是否生效

通过测试发现，第二种方法比第一种读取速度大约提高10%-20%，这种场景下是批量执行readahead后立马执行read，优化空间有限，如果有一种场景可以在read之前一段时间调用readahead，那将大大提高read本身的读取速度

这种方案实际上是利用了操作系统的页缓存，即提前触发操作系统将文件读取到页缓存，并且操作系统对缺页处理、缓存命中、缓存淘汰都由一套完善的机制，虽然用户也可以针对自己的数据做缓存管理，但和直接使用页缓存比并没有多大差别，而且会增加维护代价

mmap

mmap是一种内存映射文件的方法，即将一个文件或者其它对象映射到进程的地址空间，实现文件磁盘地址和进程虚拟地址空间中一段虚拟地址的一一对映关系，函数原型如下

void *mmap(void *addr, size_t length, int prot, int flags, int fd, off_t offset);

实现这样的映射关系后，进程就可以采用指针的方式读写操作这一段内存，而系统会自动回写脏页面到对应的文件磁盘上，即完成了对文件的操作而不必再调用read,write等系统调用函数。如下图所示

mmap除了可以减少read,write等系统调用以外，还可以减少内存的拷贝次数，比如在read调用时，一个完整的流程是操作系统读磁盘文件到页缓存，再从页缓存将数据拷贝到read传递的buffer里，而如果使用mmap之后，操作系统只需要将磁盘读到页缓存，然后用户就可以直接通过指针的方式操作mmap映射的内存，减少了从内核态到用户态的数据拷贝

mmap适合于对同一块区域频繁读写的情况，比如一个64M的文件存储了一些索引信息，我们需要频繁修改并持久化到磁盘，这样可以将文件通过mmap映射到用户虚拟内存，然后通过指针的方式修改内存区域，由操作系统自动将修改的部分刷回磁盘，也可以自己调用msync手动刷磁盘

Linux文件读写机制及优化方式的更多相关文章

(转)linux文件读写的流程
转自http://hi.baidu.com/_kouu/item/4e9db87580328244ef1e53d0 在<linux内核虚拟文件系统浅析>这篇文章中,我们看到文件是如何被打开 ...
Linux 文件读写操作与磁盘挂载
文件读写 [文件描述符] Linux下,通常通过open打开一个文件,它然后返回给我们一个整数,通过这个整数便可以操作文件,这个整数我们称文件描述符(fd).对应被打开的文件,它也是一种系统资源,那么 ...
Python文件读写机制
Python提供了必要的函数和方法进行默认情况下的文件基本操作文件打开方式: open(name[,mode[buf]]) name:文件路径 mode:打开方式 buf:缓冲buffering大小 ...
.net学习笔记--文件读写的几种方式
在.net中有很多有用的类库来读写硬盘上的文件一般比较常用的有: File:1.什么时候使用:当读写件大小不大,同时可以一次性进行读写操作的时候使用 2.不同的方式可以读写文件类型不 ...
java文件读写的两种方式
今天搞了下java文件的读写,自己也总结了一下,但是不全,只有两种方式,先直接看代码: public static void main(String[] args) throws IOExceptio ...
7.打开文件、文件读写操作、with方式、文件常用函数
打开文件: 在python3中,打开文件的函数是: open(file, mode='r', buffering=None, encoding=None, errors=None, newline=N ...
Android 7.0 之后相机/文件读写等权限获取方式改变，导致开启相机闪退
在 Android 7.0 之前 Google 提供的动态申请权限的 API,可以调用相机拍照,访问SDcard等操作都只需要申请对应的权限,如下: <uses-permission andro ...
Linux文件读写笔记
读文件: #include <stdio.h> #include <stdlib.h> #include <unistd.h> //linux下面的头文件 #inc ...
Java文件读写操作指定编码方式防乱码
读文件:BufferedReader 从字符输入流中读取文本,缓冲各个字符,从而提供字符.数组和行的高效读取. 可以指定缓冲区的大小,或者可使用默认的大小.大多数情况下,默认值就足够大了. 通常,Re ...

随机推荐

python 时间类型和相互转换
time有四种类型(time, datetime, string, timestamp) 1. time string string是最简单的表示time的方式如如下代码生成的即为string &g ...
wifi-mac
//18:a6:f7:12:0b:8b //18:a6:f7:1e:a9:57 //18:a6:f7:1f:8e:69 //18:a6:f7:12:0b:9c //18:a6:f7:1f:cd:d4 ...
找到一款不错的网站压力测试工具webbench
webbench最多可以模拟3万个并发连接去测试网站的负载能力,个人感觉要比Apache自带的ab压力测试工具好,安装使用也特别方便. 1.适用系统:Linux 2.编译安装: 引用 wget htt ...
php的if语句单行与多行
//正确: //错误写法 $b = //if前面不能带等号
捕获EF提交异常
try { } catch (DbEntityValidationException dbex) { string errMsg = string.Empty; foreach (var eve in ...
jar tvf study.war jar命令查看war/jar包的内容
jar tvf study.war 0 Thu Oct 20 14:01:18 CST 2016 META-INF/ 137 Thu Oct 20 14:01:16 CST 2016 META-INF ...
ProFTPD <=1.3.5 mod_copy 未授权文件复制漏洞
poc如下: #!/usr/bin/env python# coding=utf-8 """Site: http://www.beebeeto.com/Framework ...
安装RabbitMQ遇到的问题
消息队列RabbitMQ在安装的时候出现了问题.. 我这里是参考的 .NET 环境中使用RabbitMQ 进行安装的..首先声明这篇博文没有问题.. 但是在我安装的时候发现..ErLang环境装完 ...
CMD窗口如何调整大小 / 颜色
Windows默认的命令行工具CMD暴丑无比..很多人都会因为这个原因去寻找漂亮的命令行工具.. 但是很多所谓的命令行工具并不能完美的支持到CMD.. 譬如 PowerCMD 或 Cmder 之流.. ...
git在windows命令行下使用
“不是内部或外部命令,也不是可运行的程序”,通常要将程序的exe路径配置环境变量. 将git的bin目录的路径添加到环境变量path中即可.

Linux文件读写机制及优化方式

Linux文件读写机制及优化方式的更多相关文章

随机推荐

热门专题