Raid1源代码分析--写流程

　　正确写流程的总体步骤是，raid1接收上层的写bio，申请一个r1_bio结构，将其中的所有bios[]指向该bio。假设盘阵中有N块盘。然后克隆N份上层的bio结构，并分别将每个bios[]指向克隆出来一个bio结构，然后进行相应设置。

　　对于没有Write Behind模式而言，之后将所有这些bios[]（共用页结构）放入队列pending_list中，对内存bitmap置位。接着由守护进程摘取pending_list链中的bio，然后将内存bitmap同步下刷到磁盘，紧接着立即一次性下发bio，写成功返回，同时更新bitmap状态，然后异步刷磁盘。如图4所示。

　　对于设置了Write Behind模式而言，还需要将接收到的上层bio的页结构拷贝到WriteMostly盘对应的bios[]中（每个WriteMostly盘对应一份拷贝），之后将所有这些bios[]放入队列pending_list中，对内存bitmap置位。接着由守护进程摘取pending_list链中的bio，然后将内存bitmap同步下刷到磁盘，紧接着立即一次性下发bio。当只剩下WriteMostly盘未完全写成功后（即非WriteMostly盘都写成功了），则认为已经写成功，返回。等到所有WriteMostly盘真正全部写完之后才释放拷贝的页结构和r1_bio。同时更新bitmap状态，然后异步刷磁盘。如图1、2所示。

　　整体的函数调用关系、进程切换关系和大体流程，如图3所示。

图1 无Write Behind模式的写流程

图2 有Write Behind模式的写流程

图3 raid1读流程整体框架图

　　写流程主要涉及以下函数：

　　　　请求函数make_request

　　　　写请求下raid1d

　　　　回调函数raid1_end_write_request

　　　　写出错处理raid1d

　　下面具体分析写流程。

1）请求函数make_request

　　写请求封装成bio后，由md设备的md_make_request下发请求，md又发给具体的设备raid1，对应raid1的make_request函数，下面将从raid1的make_request开始理解该部分的流程。总体流程如图4所示。

图4 make request函数写流程整体框架图

　　代码的具体分析如下：

　　1. 调用md_write_start，等待盘阵的超级快更新完成之后继续下面的步骤。

　　　　1.1 如果不为写则直接返回。

　　　　1.2 如果阵列为临时只读状态，则设置为读写状态，设置阵列mddev的MD_RECOVERY_NEEDED位，并唤醒守护进程和同步守护线程。

　　　　注：

- set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);表示可能需要resync或recovery；
- resync使各子设备上的数据同步，recovery就是恢复数据的过程。

　　　　1.3 如果阵列为安全模式，则设置为不安全模式。

　　　　1.4 如果阵列mddev的in_sync=1，则设置in_sync=0，表示阵列要开始进行写操作了。唤醒守护进程。

　　　　　　　　set_bit(MD_CHANGE_CLEAN, &mddev->flags);也就是将superblock中的MD_SB_CLEAN标志清掉。

　　　　1.5 同步in_sync标志到磁盘中阵列超级块上。

　　2. 如果访问要求设置barrier，而MD设备（这里是指raid1）不支持设置barrier，则结束bio，立即返回，将-EOPNOTSUPP信息反馈给上层。

　　　　注：这里的barrier指的是bio带有的barrier属性。

　　3. 等待设备上的barrier消除。

　　　　注：这里是指raid1自己为同步做的一套barrier。

　　4. 申请一个r1_bio结构（该结构主要用于管理raid1的bio），该结构中有一个数组bios数组指向对应各磁盘的bio。

　　5. 遍历盘阵中所有盘。

　　　　5.1 如果盘存在，但是阻塞了（Blocked），那么跳出循环等待阻塞消除，重新进入循环开头。（通常由用户发ioctl设置和清除）

　　　　5.2 如果盘存在，并且盘没有坏（!Faulty），增加该盘的下发IO计数。

　　　　　　5.2.1 如果该盘坏了（Faulty），减少该盘的下发IO计数，r1_bio的bio[]数组中的该盘的bio置NULL。

　　　　　　5.2.2 将r1_bio的数组中的该盘指向用户bio。targets用来表示可用的盘。

　　　　5.3 如果是其他情况（一定是出错情况），r1_bio的数组中的该盘的bio置NULL。

　　6. 如果盘阵中的可用的盘数量targets小于conf->raid_disks，则说明有的盘坏掉了。那么就将盘阵设置为降级（R1BIO_Degraded）状态。

　　7. 如果设置了延迟写，需要将用户bio的数据通过调用alloc_behind_pages函数拷贝一份保存在behind_pages中。并将盘阵设置为R1BIO_BehindIO状态。

　　8. 设置r1_bio的未完成请求数和延迟写的未完成请求数都置为0。

　　9. 根据用户bio中的BIO_RW_BARRIER标志，确定是否设置r1_bio中的barrier标志。也就是判断是否要set_bit(R1BIO_Barrier, &r1_bio->state)。

　　　　注：根据用户bio中的标志，确定是否设置raid-bio中的barrie标志；

　　　　　　如果下挂的磁盘不支持barrier操作，则在raid1_end_write_request中加以处理，具体的处理就是在守护进程中重试。

　　10. 初始化一个bio_list链b1。

　　11. 遍历盘阵中所有盘。

　　　　11.1 对于每个磁盘，克隆一份用户bio到r1_bio数组对应元素bios中，并设置相关字段以及回调函数raid1_end_write_request。

　　　　11.2 如果设置了延迟写，则r1_bio中的数组bios每个元素的bio_vec指向保存的延迟写拷贝behind_pages。如果设置了WriteMostly模式，则对盘阵增加一个延迟写的未完成请求数。

　　　　11.3 r1_bio->remaining记录还未提交的请求数，这里每到一个盘都会+1。

　　　　11.4 将克隆的这份bio挂到bio_list 链b1中。

　　12. 调用bitmap_startwrite，通知bitmap进行写数据块对应的设置。

　　13. 将该克隆的得到的b1（多份相同的bio）加到raid1的pending_bio_list链中。

　　14. 如果用户IO为sync io，则唤醒守护进程raid1d，进程切换到raid1d，由守护进程通过操作pending_bio_list链，继续处理r1_bio请求。

2）写请求下发raid1d

　　pending_bio_list所有bio项是一起提交的，retry_list中的r1_bio则是逐个处理。

　　如果pending_bio_list队列不为空（有等待的访问请求），则将这些请求逐一提交。在提交写请求之前，需要将内存bitmap刷磁盘（为了避免掉电等情况下，内存中的数据丢失，出现错误），保证在数据写入前完成bitmap的写入。直到pending_bio_list链表的所有请求全部提交。

　　正常流程走下来，在这里就把写请求下发了。如图5所示。

图5 守护进程下发写请求

3）回调函数raid1_end_write_request

　　总体流程如图6所示。

　　首先我们不考虑出错流程。假设有5块盘，其中3块为WriteMostly盘。当设置了Write Behind时，behind remaining = 3，remaining = 5。

　　如果已经返回了1个WriteMostly盘，1个非WriteMostly盘。那么还剩下2个WriteMostly盘，1个非WriteMostly盘，此时behind remaining = 2，remaining = 3。如果接下来非WriteMostly盘返回，不需要减behind remaining即到了判断语句behind remaining >= remaining - 1，所以这时该条件成立。那么设置R1BIO_Returned，endio，通知上层写请求已经结束。此时只剩下WriteMostly盘，进而达到延迟写的效果。但是此时r1_bio等相关结构体和behind pages还未释放。等WriteMostly盘返回之后，save_put_page(), bitmap_endwrite(),释放behind pages和r1_bio结构。

　　如果所有WriteMostly盘都返回了，仍然有非WriteMostly盘未返回，那么一直有behind remaining < remaining，与没有设置Write Behind时效果一样。

　　没有设置Write Behind的情况比较简单，参照流程图和下面的代码走读分析即可理解。

图6 raid1_end_write_request函数流程

　　下面对具体代码流程进行分析：

　　1. 选出要回调结束bio的盘号mirror。

　　2. 如果请求要求设置barrier，但是下挂的设备不支持barrier，则设置该盘阵为R1BIO_BarrierRetry状态。跳到步骤8。

　　注：这种情况是RAID1设备支持barrier bio，但是下层设备不支持；这里的barrier和make request中刚开始的时候的barrier的不同，这里的-EOPNOTSUPP值，是下发之后，下层回调传上来的值。而make_request中bio_endio传入的-EOPNOTSUPP，是将-EOPNOTSUPP回调给raid1的上层。一个是给接收到的下层设备的返回信息，一个是反馈给上层的返回信息。

　　3. r1_bio->bios[mirror]指针置为NULL。（所指原区域还未释放，用to_put指针来找）

　　4. 如果状态不是"有效"的(不是uptodate)，就将该盘置为出错。并将盘阵降级处理。

　　5. 如果状态是”有效”的，将盘阵设置为R1BIO_Uptodate。

　　6. 记录这次操作结束的在磁盘上的位置。

　　7. 如果有延迟写。

　　　　7.1 如果该盘是WriteMostly，延迟写的未完成请求数-1。

　　　　7.2 如果只剩下WriteMostly盘的请求，并且r1_bio的状态是R1BIO_Uptodate，那么就认为写操作成功，endio返回。

　　　　7.3 减少该盘的io下发计数。

　　8. 减少一个remaining，并且检查是否全部请求都完成了(remaining为0)。如果r1_bio中所有请求都完成了，那么进入下面流程。表示该请求真的完全完成，可以释放了相关的结构了。

　　　　8.1 如果R1BIO_BarrierRetry状态(前面设置过)，那么将这个r1_bio加入retry队列。跳到retry流程。

　　　　8.2 释放延迟写的页。

　　　　8.3 设置bitmap attr属性为CLEAN。

　　　　8.4 关于安全模式。

　　　　8.5 end io。

　　9. 如果计数为0，把to_put这个bio释放掉。

　　当下发磁盘的写请求完成后，需要将bitmap内存页中相应的bit清零，然后把bitmap文件下刷。这些通过守护进程来做，而这个过程不需要等待写bitmap磁盘文件完成，因此是异步的。（由bitmap_daemon_work完成）这里bitmap不需要同步来做，因为可以保证数据的正确性。即使写失败，最多带来额外的同步，不带来数据的危害。

4）写出错处理raid1d

　　如果接收到的上层bio是因为设置了barrier属性，而子设备又不支持barrier而失败的（这个情况只发生在写操作），则清除r1_bio的barrier属性，重新提交这个r1_bio。

　　守护进程处理这种写出错的具体流程如图7所示。

图7 守护进程处理barrier bio造成的写出错流程

　　具体代码流程如下：

　　1. 清除r1_bio的R1BIO_BarrierRetry和R1BIO_Barrier状态位。

　　2. 增加盘阵中r1_bio->remaining请求数，增加个数为盘阵中盘的个数。

　　3. 对于盘阵中的每一个磁盘，克隆master_bio给它，并进行初始化。（其中原failed bio的每个page要逐一复制给新的bio，因为可能存在write behind设备）。

　　4. 下发这个新的bio。

转载请注明出处：http://www.cnblogs.com/fangpei/

Raid1源代码分析--写流程的更多相关文章

Raid1源代码分析--同步流程
同步的大流程是先读,后写.所以是分两个阶段,sync_request完成第一个阶段,sync_request_write完成第二个阶段.第一个阶段由MD发起(md_do_sync),第二个阶段由守护进 ...
Raid1源代码分析--读流程(重新整理)
五.Raid1读流程分析两个月前,刚刚接触raid1,就阅读了raid1读流程的代码,那个时候写了一篇博客.现在回过头看看,那篇的错误很多,并且很多地方没有表述清楚.所以还是决定重新写一篇以更正之前 ...
Raid1源代码分析--读流程
这篇博文不足之处较多,重新整理了一下,链接:http://www.cnblogs.com/fangpei/p/3890873.html 我阅读的代码的linux内核版本是2.6.32.61.刚进实验室 ...
Raid1源代码分析--初始化流程
初始化流程代码量比较少,也比较简单.主要是run函数.(我阅读的代码的linux内核版本是2.6.32.61) 四.初始化流程分析 run函数顾名思义,很简单这就是在RAID1开始运行时调用,进行一些 ...
Raid1源代码分析--开篇总述
前段时间由于一些事情耽搁了,最近将raid1方面的各流程整理了一遍.网上和书上,能找到关于MD下的raid1的文档资料比较少.决定开始写一个系列的关于raid1的博客,之前写过的一篇读流程也会在之后加 ...
MD中bitmap源代码分析--设置流程
1. 同步/异步刷磁盘 Bitmap文件写磁盘分同步和异步两种: 1) 同步置位:当盘阵有写请求时,对应的bitmap文件相应bit被置位,bitmap内存页被设置了DIRTY标志.而在下发写请求给磁 ...
Raid1源代码分析--一些补充
Raid1的源码的读.写.同步,在本系列博客中都已经分析完成.除了barrier机制要专门拿出来分析(下一篇会写)以外,有一些问题值得思考和注意,分析如下. 1.freeze_array是如何做的? ...
MD中bitmap源代码分析--清除流程
bitmap的清零是由bitmap_daemon_work()来实现的.Raid1守护进程定期执行时调用md_check_recovery,然后md_check_recovery会调用bitmap_d ...
Raid1源代码分析--Barrier机制
本想就此结束Raid1的专题博客,但是觉得Raid1中自己构建的一套barrier机制的设计非常巧妙,值得单独拿出来分析.它保证了同步流程和正常读写流程的并发性,也为设备冻结/解冻(freeze/un ...

随机推荐

具体解释VB中连接access数据库的几种方法
在VB中,连接ACCESS数据库的方法主要有以下三种使用ADO对象,通过编写代码訪问数据库 Connection 对象 ODBC数据源使用ADO Data 控件高速创建数据库连接有三种连接方法 ...
Robotium -- 使用JunitReport导出测试报告
使用Robotium进行测试的时候,要想可以导出明了的测试结果,可以使用junitreport来实现 junit-report下载地址:https://github.com/jsankey/andro ...
PowerDesigner 生成带凝视SQL 各个版本号通用10(12、15)
做数据库是设计时最苦恼的事就是用PowerDesigner工具设计完数据库运行SQL文件后没有凝视.那么怎么才干让PowerDesigner设计完有凝视呢,下边教你一个笨的方法,方法尽管笨,可是能实现 ...
[转] boost::any的用法、优点和缺点以及源代码分析
boost::any用法示例: #include <iostream> #include <list> #include <boost/any.hpp> typed ...
Android -- getSystemService
Android的后台运行在很多service,它们在系统启动时被SystemServer开启,支持系统的正常工作,比如MountService监听是否有SD卡安装及移除,ClipboardServic ...
一个好用的Python备份mysql的脚本
前几天打算用Python写一个mysql脚本,上Google看了下老外写的,写的挺好的,原地址在http://tecadmin.net/python-script-for-mysql-database ...
SpringMVC03controller中定义多个方法
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"% ...
junit测试用例加载spring配置文件
junit加载pom引用项目的xml配置文件,如果定义了<beans profile="dev">,必须在测试用例类上面加上标记 @ActiveProfiles(&qu ...
SpringBoot入门系列：第一篇 Hello World
跟随SpringBoot的文档(http://docs.spring.io/spring-boot/docs/current-SNAPSHOT/reference/htmlsingle/#boot-d ...
java.lang.NumberFormatException: empty String 错误
原因:前台获取的字符串,后台类型转换,与之对应的实体类中却是Integer类型,所以会报错. 排错情况:1.先检查数据库与实体类中的类型是否一致 2.检查类型转换代码,如果需要加入异常处理

Raid1源代码分析--写流程

Raid1源代码分析--写流程的更多相关文章

随机推荐

热门专题