linux内核源码阅读之facebook硬盘加速flashcache之四

这一小节介绍一下flashcache读写入口和读写的基础实现。

首先，不管是模块还是程序，必须先找到入口，用户态代码会经常去先看main函数，内核看module_init，同样看IO流时候也要找到入口。flashcache作为一个dm_target，入口就是struct target_type 的map函数，对应的是flashcache_map函数：

1581/*

1582 * Decide the mapping and perform necessary cache operations for a bio request.

1583 */

1584int

1585flashcache_map(struct dm_target *ti, struct bio *bio,

1586	       union map_info *map_context)

1587{

1588	struct cache_c *dmc = (struct cache_c *) ti->private;

1589	int sectors = to_sector(bio->bi_size);

1590	int queued;

1591

1592	if (sectors <= 32)

1593		size_hist[sectors]++;

1594

1595	if (bio_barrier(bio))

1596		return -EOPNOTSUPP;

1597

1598	VERIFY(to_sector(bio->bi_size) <= dmc->block_size);

1599

1600	if (bio_data_dir(bio) == READ)

1601		dmc->reads++;

1602	else

1603		dmc->writes++;

1604

1605	spin_lock_irq(&dmc->cache_spin_lock);

1606	if (unlikely(sysctl_pid_do_expiry &&

1607		     (dmc->whitelist_head || dmc->blacklist_head)))

1608		flashcache_pid_expiry_all_locked(dmc);

1609	if ((to_sector(bio->bi_size) != dmc->block_size) ||

1610	    (bio_data_dir(bio) == WRITE && flashcache_uncacheable(dmc))) {

1611		queued = flashcache_inval_blocks(dmc, bio);

1612		spin_unlock_irq(&dmc->cache_spin_lock);

1613		if (queued) {

1614			if (unlikely(queued < 0))

1615				flashcache_bio_endio(bio, -EIO);

1616		} else {

1617			/* Start uncached IO */

1618			flashcache_start_uncached_io(dmc, bio);

1619		}

1620	} else {

1621		spin_unlock_irq(&dmc->cache_spin_lock);

1622		if (bio_data_dir(bio) == READ)

1623			flashcache_read(dmc, bio);

1624		else

1625			flashcache_write(dmc, bio);

1626	}

1627	return DM_MAPIO_SUBMITTED;

1628}

第1588行，dmc = ti->private，是什么时候保持的这个指针呢？看构造函数flashcache_ctr

1350     ti->split_io = dmc->block_size;

1351     ti->private = dmc;

这里对private赋值，这里还有一个额外的收获，就是1350行，这是告诉dm层将IO分发为指定大小下发到dm_target设备。所以就有了flashcache_map函数1609行判断bio->bi_size是否为block_size大小。1606行和1610行是关于黑名单管理的，用于管理哪些进程或组不使用flashcache的，这里暂且不管，有兴趣可以查看flashcache_ioctl。

为什么大小不为block_size就直接下发到磁盘呢？因为flashcache只处理block_size大小的数据，由于设置了ti->spilit_io为block_size，所以flashcache_map接收到的数据都不会超过block_size，取大的bio在dm层被拆分成最大block_size的bio下发。那么处理小块数据对flashcache来讲有什么不好呢？因为flashcache为了提高效率都在按block_size下发到磁盘，这时有小的数据块缓存，那么必须要凑齐block_size才能下发，那怎么凑齐呢，就要去磁盘里读。所以flashcache对于缓存的数据是有选择性的，那么也决定了上层了流量模型不能是小块数据，这样的话flashcache就会直接下发到磁盘，就没起到缓存的作用了。

如果是小数据块的情况，第1611行调用flashcache_inval_block将与该bio有交集的cache块全部设置为INVALID，因为不再是最新的了。然后很不幸的是，设置cache块为invalid也会失败，按直观的想法就是设置一个脏标志位不就行了吗？根据墨菲定律，我们总是会过于乐观的判断一件事情。这里先不讲这些异常处理，因为如果还没有理解正常流程是什么样的，讲异常就失去了意义。

这样我们就很快找了正常流程的读写入口，第1623行是读入口，第1625行是写入口。

这里不急于去看读写实现，先来说说flashcache采用的读写磁盘的方法。

flashcache中跟磁盘相关的读写分为以下两类：

1）磁盘跟内存的交互

2）磁盘跟磁盘之前的交互

比如说读不命中时就是直接从磁盘读，属于第1种情况，那读命中呢？也是属于第1种情况，不过这时候是从SSD读。磁盘跟磁盘之间交互是用于写脏数据，将SSD中脏cache块拷贝到磁盘上去。现在介绍下两种情况使用的接口函数，这样后面在看读写流程时看到这两个函数就十分亲切了，并且清楚地知道数据是从哪里流向哪里。

首先看第一种情况是通过flashcache_dm_io_sync_vm函数实现的：

571int

572flashcache_dm_io_sync_vm(struct cache_c *dmc, struct dm_io_region *where, int rw, void *data)

573{

574	unsigned long error_bits = 0;

575	int error;

576	struct dm_io_request io_req = {

577		.bi_rw = rw,

578		.mem.type = DM_IO_VMA,

579		.mem.ptr.vma = data,

580		.mem.offset = 0,

581		.notify.fn = NULL,

582		.client = dmc->io_client,

583	};

584

585	error = dm_io(&io_req, 1, where, &error_bits);

586	if (error)

587		return error;

588	if (error_bits)

589		return error_bits;

590	return 0;

591}

这里我们只关心dm_io的使用，并不关心其实现，因为这已经涉及到dm层的代码了。

dmc 就是flashcache在内存中的管理结构

where是读写的目标设备

rw 读写

data 对应的内存地址

我们就以flashcache_md_create中读flash_superblock为例

720	header = (struct flash_superblock *)vmalloc(512);

721	if (!header) {

722		DMERR("flashcache_md_create: Unable to allocate sector");

723		return 1;

724	}

725	where.bdev = dmc->cache_dev->bdev;

726	where.sector = 0;

727	where.count = 1;

728#if LINUX_VERSION_CODE < KERNEL_VERSION(2,6,27)

729	error = flashcache_dm_io_sync_vm(&where, READ, header);

730#else

731	error = flashcache_dm_io_sync_vm(dmc, &where, READ, header);

732#endif

第一个参数dmc，第二个参数设置设备为SSD，即cache_dev->bdev，扇区0开始，1个扇区大小，读，目的地址是header。由于flashcache_dm_io_sync_vm中第581行设置fn=NULL，所以该函数是同步的。

现在看第二类磁盘和磁盘之间交互。看函数原型：

int dm_kcopyd_copy(struct dm_kcopyd_client *kc, struct dm_io_region *from,

unsigned num_dests, struct dm_io_region *dests,

unsigned flags, dm_kcopyd_notify_fn fn, void *context);

第一个参数dm_kcopyd_client，在使用kcopyd异步拷贝服务时，必须先创建一个对应的client，创建在flashcache_ctr函数中

1208     r = dm_kcopyd_client_create(FLASHCACHE_COPY_PAGES, &dmc->kcp_client);

1209     if (r) {

1210          ti->error = "Failed to initialize kcopyd client\n";

1211          dm_io_client_destroy(dmc->io_client);

1212          goto bad3;

1213     }

第二个参数dm_io_region是源地址，第四个参数是目的地址，定义如下

struct dm_io_region {

     struct block_device *bdev;

     sector_t sector;

     sector_t count;          /* If this is zero the region is ignored. */

};

dm_kcopyd_notify_fn fn是kcopyd处理完请求的回调函数

context 是回调函数参数，在flashcache都设置对应的kcached_job

小结一下，以上两类函数其实本质是一样的，调用者填写好源地址和目的地址，地址可以是内存中的也可以是设备的，填好之后就调用函数，再接着就等回调通知。就好比我们在网上购物，帐号(dm_client)登录，我们只负责填好订单（dm_io_region），具体的生产制造物流过程我不关心，我只关心门铃响(dm_kcopyd_notify_fn)的时候我要的物品都已经送上门来了。

linux内核源码阅读之facebook硬盘加速flashcache之四的更多相关文章

linux内核源码阅读之facebook硬盘加速flashcache之八
前面我们的分析中重点关注正常的数据流程,这一小节关注如果有异常,那么流程是怎么走完的呢? 1)创建新任务时kcached_job申请不到 2)读写命中时cache块为忙 3)系统关机时处理,系统开机时 ...
linux内核源码阅读之facebook硬盘加速flashcache之三
上一节讲到在刷缓存的时候会调用new_kcahed_job创建kcached_job,由此我们也可以看到cache数据块与磁盘数据的对应关系.上一篇:http://blog.csdn.net/lium ...
linux内核源码阅读之facebook硬盘加速flashcache之二
flashcache数据结构都在flashcache.h文件中,但在看数据结构之前,需要先过一遍flashcache是什么,要完成哪些功能?如果是自己设计这样一个系统的话,大概要怎么设计. 前面讲过, ...
linux内核源码阅读之facebook硬盘加速flashcache之六
其实到目前为止,如果对读流程已经能轻松地看懂了,那么写流程不需要太多脑细胞.我觉得再写下去没有太大的必要了,后面想想为了保持flashcache完整性,还是写出来吧.接着到写流程: 1530stati ...
linux内核源码阅读之facebook硬盘加速flashcache之五
正常流程到flashcache_map的1623行或1625行,按顺序先看读流程: 1221static void 1222flashcache_read(struct cache_c *dmc, s ...
linux内核源码阅读之facebook硬盘加速利器flashcache
从来没有写过源码阅读,这种感觉越来越强烈,虽然劣于文笔,但还是下定决心认真写一回. 源代码下载请参见上一篇flashcache之我见 http://blog.csdn.net/liumangxiong ...
ubuntu下linux内核源码阅读工具和调试方法总结
http://blog.chinaunix.net/uid-20940095-id-66148.html 一 linux内核源码阅读工具 windows下当然首选source insight, 但是l ...
Linux内核源码阅读记录一之分析存储在不同段中的函数调用过程
在写驱动的过程中,对于入口函数与出口函数我们会用一句话来修饰他们:module_init与module_exit,那会什么经过修饰后,内核就能狗调用我们编写的入口函数与出口函数呢?下面就来分析内核调用 ...
Linux内核源码分析
Linux源码下载: https://www.kernel.org/ https://git.kernel.org/ Linux内核源码阅读以及工具(转): https://blog.csdn.net ...

随机推荐

numpy 札记
transpose 在处理caffe读入的图片数据时,需要将原始图片的数据 H*W*3(height*width*RGB) 转换为 3*H*W(RGB*heigth*width) 需要用到numpy的 ...
linux printf和fork()问题小结
总结如下: printf("father begin"); pid_t pid; pid = fork(); ) { ) { printf("father out&quo ...
MVC入门
MVC开始是存在于桌面程序中的,M是指业务模型,V是指用户界面,C 则是控制器,使用MVC的目的是将M和V的实现代码分离,从而使同一个程序可以使用不同的表现形式.比如一批统计数据可以分别用柱状图.饼图 ...
ORACLE-Kill 杀死正在执行的Oracle存储过程和死锁语句
ORACLE-Kill 杀死正在执行的Oracle存储过程和死锁语句存储过程 1.找到正在执行的存储过程的 sid ,serial# select b.sid,b.SERIAL#,a.OBJEC ...
cad移动图案
1.键盘按快捷键M,鼠标变成小方块,选中图案,右击,左击拖动图像 2.选中图像,键盘按m,拖动图像 3.选中图像,右击,图像移动
UVA507-- Jill Rides Again
题目链接:http://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_problem& ...
Tcl学习之--语法|变量
[语法|变量] l 脚本.命令和单词 Tcl提供了大约100条命令.Tk提供了另外几十条,脚本包括一条或多条,通过换行符或分号分隔开. set a 12 set b 23 也能够写成一行: set a ...
iOS 更改导航栏返回button文字
假如有两个ViewController A,B 改动B的返回button需在A页面设置 self.navigationItem.backBarButtonItem = [[UIBarButtonIte ...
java--jsp+ssh+select动态结合数据和选择(解)
在三层体系结构和jsp合并项目,如何实现select动态绑定数据和动态选择指定的行?让我们来看看下面的: 1.首先定义一个Bean分类.它用于实例select的结合数据中的每一个id和name: pu ...
html中radio，checkbox值的获取、赋值、注册事件
1,radio分组只要name一样,就是一组的,即一组中只能选择一个,如下: 代码如下: <span>group1:</span> <input type=" ...

linux内核源码阅读之facebook硬盘加速flashcache之四

linux内核源码阅读之facebook硬盘加速flashcache之四的更多相关文章

随机推荐

热门专题