一) I/O调度程序的总结

1) 当向设备写入数据块或是从设备读出数据块时,请求都被安置在一个队列中等待完成.
    2) 每个块设备都有它自己的队列.
    3) I/O调度程序负责维护这些队列的顺序,以更有效地利用介质.I/O调度程序将无序的I/O操作变为有序的I/O操作.
    4) 内核必须首先确定队列中一共有多少个请求,然后才开始进行调度.

二) I/O调度的4种算法

1) CFQ(Completely Fair Queuing, 完全公平排队)

特点:
        在最新的内核版本和发行版中,都选择CFQ做为默认的I/O调度器,对于通用的服务器也是最好的选择.
        CFQ试图均匀地分布对I/O带宽的访问,避免进程被饿死并实现较低的延迟,是deadline和as调度器的折中.
        CFQ对于多媒体应用(video,audio)和桌面系统是最好的选择.
        CFQ赋予I/O请求一个优先级,而I/O优先级请求独立于进程优先级,高优先级进程的读写不能自动地继承高的I/O优先级.

工作原理:
        CFQ为每个进程/线程单独创建一个队列来管理该进程所产生的请求,也就是说每个进程一个队列,各队列之间的调度使用时间片来调度,以此来保证每个进程都能被很好的分配到I/O带宽.I/O调度器每次执行一个进程的4次请求.

2) NOOP(电梯式调度程序)

特点:
        在Linux2.4或更早的版本的调度程序,那时只有这一种I/O调度算法.
        NOOP实现了一个FIFO队列,它像电梯的工作主法一样对I/O请求进行组织,当有一个新的请求到来时,它将请求合并到最近的请求之后,以此来保证请求同一介质.
        NOOP倾向饿死读而利于写.
        NOOP对于闪存设备,RAM,嵌入式系统是最好的选择.

电梯算法饿死读请求的解释:
        因为写请求比读请求更容易.
        写请求通过文件系统cache,不需要等一次写完成,就可以开始下一次写操作,写请求通过合并,堆积到I/O队列中.
        读请求需要等到它前面所有的读操作完成,才能进行下一次读操作.在读操作之间有几毫秒时间,而写请求在这之间就到来,饿死了后面的读请求.

3) Deadline(截止时间调度程序)

特点:
        通过时间以及硬盘区域进行分类,这个分类和合并要求类似于noop的调度程序.
        Deadline确保了在一个截止时间内服务请求,这个截止时间是可调整的,而默认读期限短于写期限.这样就防止了写操作因为不能被读取而饿死的现象.
        Deadline对数据库环境(ORACLE RAC,MYSQL等)是最好的选择.

4) AS(预料I/O调度程序)

特点:
        本质上与Deadline一样,但在最后一次读操作后,要等待6ms,才能继续进行对其它I/O请求进行调度.
        可以从应用程序中预订一个新的读请求,改进读操作的执行,但以一些写操作为代价.
        它会在每个6ms中插入新的I/O操作,而会将一些小写入流合并成一个大写入流,用写入延时换取最大的写入吞吐量.
        AS适合于写入较多的环境,比如文件服务器
        AS对数据库环境表现很差.

三) I/O调度方法的查看与设置

1) 查看当前系统的I/O调度

[root@test1 tmp]# cat /sys/block/sda/queue/scheduler 
        noop anticipatory deadline [cfq]

2) 临时更改I/O调度
        例如:想更改到noop电梯调度算法:
        echo noop > /sys/block/sda/queue/scheduler

3) 永久更改I/O调度
        修改内核引导参数,加入elevator=调度程序名
        [root@test1 tmp]# vi /boot/grub/menu.lst
        更改到如下内容:
        kernel /boot/vmlinuz-2.6.18-8.el5 ro root=LABEL=/ elevator=deadline rhgb quiet

重启之后,查看调度方法:
        [root@test1 ~]# cat /sys/block/sda/queue/scheduler 
        noop anticipatory [deadline] cfq 
        已经是deadline了

四) I/O调度程序的测试

本次测试分为只读,只写,读写同时进行,分别对单个文件600MB,每次读写2M,共读写300次.

1) 测试磁盘读
        [root@test1 tmp]# echo deadline > /sys/block/sda/queue/scheduler 
        [root@test1 tmp]# time dd if=/dev/sda1 f=/dev/null bs=2M count=300
        300+0 records in
        300+0 records out
        629145600 bytes (629 MB) copied, 6.81189 seconds, 92.4 MB/s

real    0m6.833s
         user    0m0.001s
         sys     0m4.556s

[root@test1 tmp]# echo noop > /sys/block/sda/queue/scheduler 
        [root@test1 tmp]# time dd if=/dev/sda1 f=/dev/null bs=2M count=300
        300+0 records in
        300+0 records out
        629145600 bytes (629 MB) copied, 6.61902 seconds, 95.1 MB/s

real    0m6.645s
        user    0m0.002s
        sys     0m4.540s

[root@test1 tmp]# echo anticipatory > /sys/block/sda/queue/scheduler 
        [root@test1 tmp]# time dd if=/dev/sda1 f=/dev/null bs=2M count=300
        300+0 records in
        300+0 records out
        629145600 bytes (629 MB) copied, 8.00389 seconds, 78.6 MB/s

real    0m8.021s
        user    0m0.002s
        sys     0m4.586s

[root@test1 tmp]# echo cfq > /sys/block/sda/queue/scheduler 
        [root@test1 tmp]# time dd if=/dev/sda1 f=/dev/null bs=2M count=300
        300+0 records in
        300+0 records out
        629145600 bytes (629 MB) copied, 29.8 seconds, 21.1 MB/s

real    0m29.826s
        user    0m0.002s
        sys     0m28.606s

结果:
        第一 noop:用了6.61902秒,速度为95.1MB/s
        第二 deadline:用了6.81189秒,速度为92.4MB/s
        第三 anticipatory:用了8.00389秒,速度为78.6MB/s
        第四 cfq:用了29.8秒,速度为21.1MB/s

2) 测试写磁盘
        [root@test1 tmp]# echo cfq > /sys/block/sda/queue/scheduler 
        [root@test1 tmp]# time dd if=/dev/zero f=/tmp/test bs=2M count=300
        300+0 records in
        300+0 records out
        629145600 bytes (629 MB) copied, 6.93058 seconds, 90.8 MB/s

real    0m7.002s
        user    0m0.001s
        sys     0m3.525s

[root@test1 tmp]# echo anticipatory > /sys/block/sda/queue/scheduler 
        [root@test1 tmp]# time dd if=/dev/zero f=/tmp/test bs=2M count=300
        300+0 records in
        300+0 records out
        629145600 bytes (629 MB) copied, 6.79441 seconds, 92.6 MB/s

real    0m6.964s
        user    0m0.003s
        sys     0m3.489s

[root@test1 tmp]# echo noop > /sys/block/sda/queue/scheduler 
        [root@test1 tmp]# time dd if=/dev/zero f=/tmp/test bs=2M count=300
        300+0 records in
        300+0 records out
        629145600 bytes (629 MB) copied, 9.49418 seconds, 66.3 MB/s

real    0m9.855s
        user    0m0.002s
        sys     0m4.075s

[root@test1 tmp]# echo deadline > /sys/block/sda/queue/scheduler 
        [root@test1 tmp]# time dd if=/dev/zero f=/tmp/test bs=2M count=300
        300+0 records in
        300+0 records out
        629145600 bytes (629 MB) copied, 6.84128 seconds, 92.0 MB/s

real    0m6.937s
        user    0m0.002s
        sys     0m3.447s

测试结果:
        第一 anticipatory,用了6.79441秒,速度为92.6MB/s
        第二 deadline,用了6.84128秒,速度为92.0MB/s
        第三 cfq,用了6.93058秒,速度为90.8MB/s
        第四 noop,用了9.49418秒,速度为66.3MB/s

3) 测试同时读/写

[root@test1 tmp]# echo deadline > /sys/block/sda/queue/scheduler 
        [root@test1 tmp]# dd if=/dev/sda1 f=/tmp/test bs=2M count=300
        300+0 records in
        300+0 records out
        629145600 bytes (629 MB) copied, 15.1331 seconds, 41.6 MB/s

[root@test1 tmp]# echo cfq > /sys/block/sda/queue/scheduler 
        [root@test1 tmp]# dd if=/dev/sda1 f=/tmp/test bs=2M count=300
        300+0 records in
        300+0 records out
        629145600 bytes (629 MB) copied, 36.9544 seconds, 17.0 MB/s

[root@test1 tmp]# echo anticipatory > /sys/block/sda/queue/scheduler 
        [root@test1 tmp]# dd if=/dev/sda1 f=/tmp/test bs=2M count=300
        300+0 records in
        300+0 records out
        629145600 bytes (629 MB) copied, 23.3617 seconds, 26.9 MB/s

[root@test1 tmp]# echo noop > /sys/block/sda/queue/scheduler 
        [root@test1 tmp]# dd if=/dev/sda1 f=/tmp/test bs=2M count=300
        300+0 records in
        300+0 records out
        629145600 bytes (629 MB) copied, 17.508 seconds, 35.9 MB/s

测试结果:
        第一 deadline,用了15.1331秒,速度为41.6MB/s
        第二 noop,用了17.508秒,速度为35.9MB/s
        第三 anticipatory,用了23.3617秒,速度为26.9MS/s
        第四 cfq,用了36.9544秒,速度为17.0MB/s

五) ionice

ionice可以更改任务的类型和优先级,不过只有cfq调度程序可以用ionice.
    有三个例子说明ionice的功能:
    采用cfq的实时调度,优先级为7
        ionice -c1 -n7  -ptime dd if=/dev/sda1 f=/tmp/test bs=2M count=300&
    采用缺省的磁盘I/O调度,优先级为3
        ionice -c2 -n3  -ptime dd if=/dev/sda1 f=/tmp/test bs=2M count=300&
    采用空闲的磁盘调度,优先级为0
        ionice -c3 -n0  -ptime dd if=/dev/sda1 f=/tmp/test bs=2M count=300&

ionice的三种调度方法,实时调度最高,其次是缺省的I/O调度,最后是空闲的磁盘调度.
    ionice的磁盘调度优先级有8种,最高是0,最低是7.
    注意,磁盘调度的优先级与进程nice的优先级没有关系.
    一个是针对进程I/O的优先级,一个是针对进程CPU的优先级.

Linux I/O调度的更多相关文章

  1. Linux 2.4调度系统分析--转

    http://www.ibm.com/developerworks/cn/linux/kernel/l-k24sch/index.html 杨沙洲 (pubb@163.net)国防科技大学计算机学院 ...

  2. Linux的IO调度

    Linux的IO调度 IO调度发生在Linux内核的IO调度层.这个层次是针对Linux的整体IO层次体系来说的.从read()或者write()系统调用的角度来说,Linux整体IO体系可以分为七层 ...

  3. Linux进程组调度机制分析【转】

    转自:http://oenhan.com/task-group-sched 又碰到一个神奇的进程调度问题,在系统重启过程中,发现系统挂住了,过了30s后才重新复位,真正系统复位的原因是硬件看门狗重启的 ...

  4. 24小时学通Linux内核之调度和内核同步

    心情大好,昨晚我们实验室老大和我们聊了好久,作为已经在实验室待了快两年的大三工科男来说,老师让我们不要成为那种技术狗,代码工,说多了都是泪啊,,不过我们的激情依旧不变,老师帮我们组好了队伍,着手参加明 ...

  5. 转: 调整 Linux I/O 调度器优化系统性能

    转自:https://www.ibm.com/developerworks/cn/linux/l-lo-io-scheduler-optimize-performance/index.html 调整 ...

  6. (转)Linux I/O 调度方法

    Linux I/O 调度方法 转自https://blog.csdn.net/theorytree/article/details/6259104 操作系统的调度有 CPU调度    CPU sche ...

  7. [转载]Linux I/O 调度方法

    http://scoke.blog.51cto.com/769125/490546 IO调度器的总体目标是希望让磁头能够总是往一个方向移动,移动到底了再往反方向走,这恰恰就是现实生活中的电梯模型,所以 ...

  8. 【原创】(六)Linux进程调度-实时调度器

    背景 Read the fucking source code! --By 鲁迅 A picture is worth a thousand words. --By 高尔基 说明: Kernel版本: ...

  9. Linux进程核心调度器之主调度器schedule--Linux进程的管理与调度(十九)

    主调度器 在内核中的许多地方, 如果要将CPU分配给与当前活动进程不同的另一个进程, 都会直接调用主调度器函数schedule, 从系统调用返回后, 内核也会检查当前进程是否设置了重调度标志TLF_N ...

  10. Linux I/O 调度器

    每个块设备或者块设备的分区,都对应有自身的请求队列,  而每个请求队列都可以选择一个I/O调度器来协调所递交的.I/O调度器的基本目的是将请求按照它们对应在块设备上的扇区号进行排列,以减少磁头的移动, ...

随机推荐

  1. Java中Method.invoke方法,反射?

    正常来说,我们调用对象的方法是通过dot运算符来进行的,这里我们介绍另一种方法,有以下几个步骤:1,获取该类的Class Type:2,通过getMethod方法获取Method对象:3,通过调用in ...

  2. Delphi Runtime Library在哪里?

    Delphi Runtime Library是Delphi的运行时库,里面包含了大部分Delphi库的代码,这些库代码在哪里呢?其实正常安装完Dephi之后,在它的安装目录下面!下面我以我的Delph ...

  3. python的virtualenv环境与使用

    1.安装virtualenv 在安装virtualenv之前,我们需要安装至少有一个版本的Python:因为virtualenv是python的一个第三方模块,必须基于python环境才能安装: 如果 ...

  4. python web开发之flask框架学习(1) 创建flask项目

    python 开发越来越火,作为菜鸟,也应该学习一下,感觉还可以,记录下来,方便学习参考. 不管做什么开发首先肯定是安装环境,这里我用的是pycharm,python3.如果不清楚怎么安装环境可以去网 ...

  5. 洛谷P2846 光开关Light Switching

    题目描述 灯是由高科技--外星人鼠标操控的.你只要左击两个灯所连的鼠标, 这两个灯,以及之间的灯都会由暗变亮,或由亮变暗.右击两个灯所连的鼠 标,你就可以知道这两个灯,以及之间的灯有多少灯是亮的.起初 ...

  6. java 集合解析

    Set集合,放的元素不能重复,请问它的判断重不重复是怎么实现的? 比如说:ArrayList 和 Vector 是用数组的方式存储的Set里的 hashSet 和TreeSet是用什么方式存储的?怎么 ...

  7. spring boot 报错

    错误1: 循环 的 请求. ..例如  cirle..url 在返回的模板路径上 加速 "/" !!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 错误2 : 添加了sh ...

  8. Caused by: MetaException(message:Hive Schema version 2.1.0 does not match metastore's schema version 1.2.0 Metastore is not upgraded or corrupt)

    解决方案汇总: ()删除HDFS上的hive数据与hive数据库 hadoop fs -rm -r -f /tmp/hive hadoop fs -rm -r -f /user/hive ()删除My ...

  9. java中存在垃圾回收机制,但是还会有内存泄漏的问题,原因是

    答案是肯定的,但不能拿这一句回答面试官的问题.分析:JAVA是支持垃圾回收机制的,在这样的一个背景下,内存泄露又被称为“无意识的对象保持”.如果一个对象引用被无意识地保留下来,那么垃圾回收器不仅不会处 ...

  10. DNS A记录 CNAME NS记录等的区别

    DNS域名解析 tracetrt dig A记录 将此域名绑定到固定ip C记录 将此域名绑定到另一个域名上,通常是A记录的别名 AAAA记录 用来绑定ipv6地址 https://www.ezloo ...