五、Raid1读流程分析

  两个月前,刚刚接触raid1,就阅读了raid1读流程的代码,那个时候写了一篇博客。现在回过头看看,那篇的错误很多,并且很多地方没有表述清楚。所以还是决定重新写一篇以更正之前理解的错误和不足之处,与大家分享。博客上不好排版,希望不会对表述产生影响。还有理解上的不足之处,希望批评指正。我阅读的代码的linux内核版本是2.6.32.61。

  正确读流程的总体步骤是,raid1接收上层的读bio,申请一个r1_bio结构。然后根据read balance算法选出盘阵中的一块盘作为读目标盘号(假设盘号为n,有WriteMostly盘的时候,优先读非WriteMostly盘)。克隆上层的bio结构(读流程中的bio都是共用页结构),并将bios[n]指向该bio结构,进行相应设置之后,将该bio直接下发到读目标盘,读成功返回。如图1和图2所示。

  读流程主要涉及以下函数:

      请求函数make_request

      读均衡read_balance

      回调函数raid1_end_read_request

      读出错处理raid1d

      尝试修复读出错fix_read_error

  下面具体分析raid1的读流程。

图1 无WriteMostly盘的读流程

图2 有WriteMostly盘的读流程

 

1)请求函数make_request

  读请求封装成bio后,由md设备的md_make_request下发请求,md又发给具体的设备raid1,对应raid1的make_request函数,下面将从raid1的make_request开始理解该部分的流程。

  1.  如果访问要求设置barrier,而设备不支持设置barrier,则结束bio,立即返回。

    注:这儿的barrier是接收到的bio自带的barrier,是由上层设置的。

  2.  等待设备上的barrier消除。

    注:这里的barrier是raid1层自己做的一套barrier机制,如果有barrier设置就需要等待barrier清除之后才往后执行。同步一定会设置barrier,代码中有raise_barrier(conf);该barrier在同步结束后end_sync_write中调用put_buf操作conf->barrier来清除。

  3.  申请一个r1_bio结构(该结构主要用于管理raid1的bio),该结构中有一个数组bios数组指向对应各磁盘的bio。

  4.  调用read_balance算法,获取读目标的盘号rdisk。

  5.  如果获取的盘号为错误盘号(即-1),表示目前不能获取读目标,那么结束这个bio(调用raid_end_bio_io(r1_bio)),返回。

  6.  通过盘号rdisk和指针数组首地址conf->mirrors得到读目标的mirror_info结构指针mirror。

  7.  通过mirror->rdev->flags可以知道该磁盘是否设置了WriteMostly属性。如果设置了WriteMostly,则通过bitmap可以知道是否仍然还有延迟写。如果延迟写还没结束,那么等待延迟写结束。其他的情况都不处理,直接往下走。

  8.  将读目标盘号赋值给r1_bio->read_disk。

  9.  将接受到的上层bio(读请求)复制一份,指针read_bio和r1_bio->bios[rdisk]都指向该bio。

  10. 设置该read_bio的相关属性,使得符合r1_bio结构的要求,比如读写属性,盘阵上哪个盘,盘的数据起始扇区。从而让它能正确下发到下层,最终找到相应的读目标盘和进行相关操作;也设置了结束请求函数raid1_end_read_request。

  11. 下发read_bio。

2)读均衡read_balance

这个算法是用来做读均衡的,在raid1中涉及到的读操作均会使用到该算法。入口参数为raid1的私有数据结构*conf和raid1管理bio的结构*r1_bio,整体流程如图3所示。

图3 read balance总体流程

具体流程分析如下:

  1.  如果盘阵正在进行同步操作,并且访问落在同步窗口中,按照下面的子流程选出盘号。

    注:

    • conf->mddev->recovery_cp < MaxSector,表示盘阵正在同步。代码中MaxSector的值为扇区数量的上限,而conf->mddev->recovery_cp表示正在进行同步的扇区号,所以自然就约定没有进行同步的时候conf->mddev->recovery_cp = MaxSector。
    • 扇区号加扇区数等于最后一个要读的扇区+1,如果大于等于下一个要同步的扇区,则说明落在同步窗口之中。
    • read_balance函数有可能在守护进程中被调用到,所以是有可能在盘阵同步的时间段内,出现read_balance函数被调用的情况。得到的目标盘号和同步读盘号是一致的。

   1.1  从0号磁盘开始,循环遍历盘阵中每个盘,选出第一个可读的盘号new_disk。如果盘阵中只有WriteMostly盘是可读的盘,才选择WriteMostly盘的盘号。如果盘阵中所有盘都不可读,那么就直接将new_disk盘号赋值为-1。

    注:盘不可读有以下几种情况:

    • 如果盘的r1_bio的bio指向的是IO_BLOCKED;

      注:如果之前读失败的盘为只读状态,在守护进程处理读失败的时候,先调用read_balance函数,如果重新指定读盘成功,则将r1_bio的该盘bio标记为IO_BLOCKED,接着就根据r1_bio来重发read请求;如果重发的这次read请求还是失败了,同样还是会唤醒守护进程来处理读出错流程,这时又会调用到read_balance函数,而将之前的IO_BLOCKED传入进来,参与到这些流程中。也就是在只读盘上读失败之后,重发读请求,再次读失败的场景会使用到。更进一步,只要是连续读失败,不管多少轮,都会使用到。

    • 盘找不到;
    • 盘不可用(rdev->flag的In_sync位为0,表示该盘不是active disk,不能工作,不可对其操作)。

    1.2   如果选出的是一个错误盘号,那么直接出错返回-1。

    1.3   如果选出的盘号是正确的,那么到步骤5。

        注:选出的盘号记录在new_disk中。

  2.  从last_used的磁盘开始,循环遍历盘阵中每个盘,选出第一个可读的盘号new_disk。如果盘阵中只有WriteMostly盘是可读的盘,才选择WriteMostly盘的盘号。如果盘阵中所有盘都不可读,那么就直接将new_disk盘号赋值为-1,出错返回-1。

  3.  如果是顺序读,选出盘new_disk的上次操作结束位置,正好位于本次操作的起点,那么就直接确定为盘号new_disk。分别有如下两种情况:

    • 一种是上次读均衡算法结束之后就更新了conf->next_seq_sect,这个变量由整个raid1盘阵的数据结构记录。
    • 一种是上次成功读写(包括同步读写)完成后,通过update_head_pos函数来更新new_disk的head_position,这个变量是由每个盘的数据结构记录。

    注:这两个量的值也有不同的时候,比如在某次读均衡操作结束之后,又有另外一个读请求进来做读均衡操作,那么此时两个量的值不同。

  4.  如果选出盘new_disk的上次操作结束位置和本次操作的起点不一样,则进入下面的循环。disk作为循环控制的磁盘号,new_disk作为返回的磁盘号。

    4.1  首先将disk--,变成其他盘号,与上次读的盘号不同。(我觉得这里体现均衡)

    4.2  如果盘不能作为正确的读盘,或者是WriteMostly盘,则继续循环。

    4.3  如果磁盘上无IO正在处理,那么确定为该磁盘的盘号,跳出循环。

    4.4  如果所有磁盘都有IO正在处理,那么找到当前记录的上次操作的位置head_position和本次操作位置最为接近的磁盘盘号。

  5.  如果选出盘rdev不存在,那么重新执行read_balance算法。

  6.  递增选出盘rdev的下发IO计数。

  7.  如果到了这一步发现此时该盘不可用(即rdev->flags没有设置In_sync),递减选出盘rdev的下发IO计数,那么重新执行read_balance算法。

  8.  设置新的conf->next_seq_sect(下一个顺序读扇区),新的conf->last_used(最近一次使用的磁盘盘号)

  9.  返回选出的磁盘,即为读均衡磁盘。

3)回调函数raid1_end_read_request

  1.  如果bio的状态为有效(或者称之为最新,即标志位BIO_UPTODATE),那么设置uptodate为1。

  2.  调用update_head_pos()更新当前盘的最后访问的磁盘位置。

  3.  如果bio的状态为有效,设置r1_bio的状态也为有效(R1BIO_Uptodate,用于bio_endio),并调用raid_end_bio_io()结束这个bio,bio_endio反馈信息为成功,释放r1_bio结构。

  4.  如果bio的状态不是有效,并且所有盘都处于降级状态,或者仅有已经尝试了read的一块盘是正常的,那么设uptodate为1(这里不是表示状态为有效,而是表示不用retry了),然后调用raid_end_bio_io结束这个bio,bio_endio反馈信息为失败。

    注:bio_endio之前要进行test_and_set_bit(R1BIO_Returned, &r1_bio->state)来判断是否已经endio了,如果已经endio了,就不再进行bio_endio。R1BIO_Returned标志位的作用就在于此,当设置了延迟写的时候,存在还没有真正将所有盘的写操作完成的时候endio的,所以在真正将所有盘都返回的时候调用raid_end_bio_io(),会出现已经设置R1BIO_Returned的情景,则不需要再endio了。

  5.  其他情况则表示读出错了。并将r1_bio放入retry队列,转由守护进程处理。即通过reschedule_retry()调用md_wakeup_thread(mddev->thread)。

  6.  递减选出盘rdev的下发IO计数。

4)读出错处理raid1d

  raid1d是守护进程,很多情况都会唤醒该进程,而该进程描述了这些不同种情况下的处理流程。先按需启动阵列同步线程,然后处理pending_bio_list的所有请求,再逐一处理retry_list的r1_bio。判断r1_bio->state,如果是R1BIO_IsSync,则转入同步写流程;如果是R1BIO_BarrierRetry,这个情况只发生在写操作,则转入处理barrier的流程;如果是其他情况,则是读出错,进入读失败处理流程。下面分析读出错的处理流程。

  1.  如果md是读写状态。

    1.1  冻结盘阵。调用freeze_array(conf)实现。

    1.1.1 通过barrier计数挡住所有新的I/O。

    1.1.2 把触发freeze_array的I/O(即失败的read I/O)加到wait计数。

    1.1.3 等待所有已经进入raid1层的I/O完成。

       注:这里等待的事件是“所有已进入raid1的readI/O挂入retry表,所有已进入raid1的write I/O完成写动作。”

    1.2  尝试修复读出错。调用fix_read_error()实现。

    1.3  解冻盘阵。调用unfreeze_array(conf)实现。

  2.  如果md是只读状态,那么失效(md_error)读目标盘。

  3.  重新调用读均衡算法,得到一个盘号disk。

  4.  如果返回的盘号仍然为负值,那么表示无法恢复读出错,调用raid_end_bio_io结束这个bio。

  5.  如果返回盘号为正常值,那么根据是否只读,设置原读出错的盘指针为IO_BLOCKED(只读时设置,连续出现读失败时会用到)或者NULL(读写时设置)。

  6.  设置r1_bio->read_disk为新的读目标盘号disk。

  7.  Put掉原bio,bio_put(bio)。

  8.  将master_bio克隆一份给bio,并用r1_bio->bios[r1_bio->read_disk指向该bio。

  9.  设置该bio的一些字段,并将回调函数设置为raid1_end_read_request,然后下发该bio。

  10. cond_resched()如果有进程要抢占,则切换进程;如果不是,则继续循环。

  11. 调用unplug_slaves()唤醒守护进程,通知raid1设备赶紧去处理请求。

    注:raid1设备没有用到queue。

5)尝试修复读出错fix_read_error

  1.  大循环,判断条件为sectors不为0,进入循环。

  2.  将需要处理的扇区数sectors复制给变量s,将读目标盘号read_disk赋值给d。

  3.  控制s的大小在 PAGE_SIZE>>9 以内。

  4.  从read_disk开始遍历盘阵中的每个盘。找到一个可以读这次page的盘,记录盘号为d,并读出来置于conf->tmppage中,跳出循环;或者没有可以读的盘,跳出循环。

  5.  如果没有可以读的盘,那么失效(md_error)原读目标盘,退出大循环,返回。

  6.  从步骤4中选出d号盘,往回遍历,直到read_disk。将conf->tmppage依次写入这些盘中。如果某次磁盘写入错误,那么失效(md_error)该次写入的磁盘。

  7.  从步骤4中选出d号盘,往回遍历,直到read_disk。将conf->tmppage依次从这些盘中读出。

    7.1  如果某次磁盘读出错误,那么失效(md_error)该次写入的磁盘。

    7.2  如果某次磁盘读出正确,那么该次磁磁盘对该大循环对应的page修复成功。

  8.  判断条件sectors = sectors – s,每次循环的sync_page_io起点标记sect = sect+1。进入下一个循环。

本文来自fangpei的博客,转载请标明出处:http://www.cnblogs.com/fangpei/

Raid1源代码分析--读流程(重新整理)的更多相关文章

  1. Raid1源代码分析--读流程

    这篇博文不足之处较多,重新整理了一下,链接:http://www.cnblogs.com/fangpei/p/3890873.html 我阅读的代码的linux内核版本是2.6.32.61.刚进实验室 ...

  2. Raid1源代码分析--同步流程

    同步的大流程是先读,后写.所以是分两个阶段,sync_request完成第一个阶段,sync_request_write完成第二个阶段.第一个阶段由MD发起(md_do_sync),第二个阶段由守护进 ...

  3. Raid1源代码分析--写流程

    正确写流程的总体步骤是,raid1接收上层的写bio,申请一个r1_bio结构,将其中的所有bios[]指向该bio.假设盘阵中有N块盘.然后克隆N份上层的bio结构,并分别将每个bios[]指向克隆 ...

  4. Raid1源代码分析--初始化流程

    初始化流程代码量比较少,也比较简单.主要是run函数.(我阅读的代码的linux内核版本是2.6.32.61) 四.初始化流程分析 run函数顾名思义,很简单这就是在RAID1开始运行时调用,进行一些 ...

  5. Raid1源代码分析--开篇总述

    前段时间由于一些事情耽搁了,最近将raid1方面的各流程整理了一遍.网上和书上,能找到关于MD下的raid1的文档资料比较少.决定开始写一个系列的关于raid1的博客,之前写过的一篇读流程也会在之后加 ...

  6. Raid1源代码分析--Barrier机制

    本想就此结束Raid1的专题博客,但是觉得Raid1中自己构建的一套barrier机制的设计非常巧妙,值得单独拿出来分析.它保证了同步流程和正常读写流程的并发性,也为设备冻结/解冻(freeze/un ...

  7. Raid1源代码分析--一些补充

    Raid1的源码的读.写.同步,在本系列博客中都已经分析完成.除了barrier机制要专门拿出来分析(下一篇会写)以外,有一些问题值得思考和注意,分析如下. 1.freeze_array是如何做的? ...

  8. MD中bitmap源代码分析--清除流程

    bitmap的清零是由bitmap_daemon_work()来实现的.Raid1守护进程定期执行时调用md_check_recovery,然后md_check_recovery会调用bitmap_d ...

  9. MD中bitmap源代码分析--设置流程

    1. 同步/异步刷磁盘 Bitmap文件写磁盘分同步和异步两种: 1) 同步置位:当盘阵有写请求时,对应的bitmap文件相应bit被置位,bitmap内存页被设置了DIRTY标志.而在下发写请求给磁 ...

随机推荐

  1. 设计模式16---设计模式之组合模式(Composite)(行为型)

    1.场景模拟 使用软件模拟大树的根节点和树枝节点和叶子节点 抽象为两类,容器节点和叶子节点 2.不用模式的解决方案 package demo14.composite.example1; import ...

  2. iOS中block实现的探究

    [0. Brief introduction of block] Block是iOS4.0+ 和Mac OS X 10.6+ 引进的对C语言的扩展,用来实现匿名函数的特性. 用维基百科的话来说,Blo ...

  3. Oracle 11g新特性invisible index(不可见的索引)

    假设一张表上有十几个索引,你有什么感受?显然会拖慢增.删.改的速度.不要指望开发者能建好索引.我的处理方法是先监控非常长的一段时间.看哪些索引没实用到,然后删除. 但删除以后,假设发现某一天实用,那又 ...

  4. C++11: final与override

    C++11中增加了final与override关键字,貌似是从Java语言中借鉴而来,用途也一样.看例子代码: 01.#include <iostream> 02.  03.using n ...

  5. [Linux 小技巧] Ubuntu 14.04 下编译、安装、配置最新开发版 GoldenDict

    1. 背景介绍 GoldenDict 是一款非常优秀的跨平台电子词典软件,支持 StarDict.Babylon 等多种词典.其 PC 版基于 Qt 编写,完全免费.开源且没有广告.GoldenDic ...

  6. Multi-touch.

    TP(Multi-touch). 1.Win7有6个版本,分别如下. Windows 7 Starter (初级版)                                        不支 ...

  7. Tooltip(提示框)组件

    一.加载方式 //class加载方式 <a href="http://www.ycku.com" title="这是一个提示信息!" class=&quo ...

  8. C#。4 数组

    一.跳出循环的俩个关键字 1.break与continue.        这两个关键字一般放在循环的花括号里面使用.break——结束整个循环.continue——结束本次循环,进入下次循环. br ...

  9. Android -------- RelativeLayout 和 LinearLayout 的性能分析

    布局的绘制角度 RelativeLayout不如LinearLayout快的根本原因是: RelativeLayout需要对其子View进行两次measure过程, 而LinearLayout则只需一 ...

  10. Xcode itunes完美打包api方法

    转:http://bbs.csdn.net/topics/390948190 Xcode6 itunes完美打包api 方法! 特点轻盈小巧,方便快捷!