[ext4]13 空间管理 - Prealloc分配机制
作者:Younger Liu,
本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 未本地化版本许可协议进行许可。
在ext4系统中,对于小文件和大文件的空间申请请求,都有不同的分配策略。
对用小文件的空间请求,ext4尝试从一种叫per-CPU local group中分配空闲空间。Per-CPU Localgroup就是所有该CPU所执行的分配行为共享的空间,目的是保证这些小文件的聚集在一起,便于访问。Per-CPU
Local group就是per-CPU prealloc空间。
对于大文件的空间请求,ext4尝试从一种叫per-inode preallo空间中分配空闲空间。这点就像Ext3系统的保留空间一样,Ext4为每个文件在内存中维护一段预分配空间,用于解决并发分配情况下的碎片问题。
Ext4系统维护这两个preallocation空间:per-inode preallocation空间和per-CPUpreallocation空间。
而大小文件的鉴别标准,用户自己可以通过以下接口调整:
/prof/fs/ext4/<partition>/stream_req
默认为16,单位是block;如果totalsize小于stream_req个block,则从per-CPU
preallocation中分配。
这里说明几个关键词:在本系列中,per-inode prealloc即是per-file
的,也称per-file prealloc;per-CPU prealloc即是locality group allocation。
1. 如何识别文件是大是小?
刚才已经说过,根据文件的大小来选择是采用per-CPU allocation还是per-inode allocation。那么大小文件的鉴别标准是什么哪?
这份工作是在ac初始化中由函数ext4_mb_group_or_file()完成的:
size = ac->ac_o_ex.fe_logical + EXT4_C2B(sbi,ac->ac_o_ex.fe_len);
isize= (i_size_read(ac->ac_inode) + ac->ac_sb->s_blocksize - 1)
>>bsbits;
…
/*don't use group allocation for large files */
size= max(size, isize);
if(size > sbi->s_mb_stream_request) {
ac->ac_flags|= EXT4_MB_STREAM_ALLOC;
return;
}
BUG_ON(ac->ac_lg!= NULL);
/*
* locality group prealloc space are per cpu.The reason for having
* per cpu locality group is to reduce thecontention between block
* request from multiple CPUs.
*/
ac->ac_lg= __this_cpu_ptr(sbi->s_locality_groups);
/*we're going to use group allocation */
ac->ac_flags|= EXT4_MB_HINT_GROUP_ALLOC;
1.
估算出文件的大小size:i_size或size
2.
比较size与stream_req的大小;如果大于,则通过设置GROUP_ALLOC来标示per-CPU preallocation可用。
需要注意的时,并不是仅仅检查这一项,还需要检查以下几项:
1.
如果当前写操作是文件的最后的逻辑block、并且文件系统不忙及文件已经关闭,就不能再采取prealloc了。(该patch是Ted提交,解决问题“挂载、在目录中写4K文件,卸载;重复64次导致碎片化”)
if((size == isize) &&
!ext4_fs_is_busy(sbi) &&
(atomic_read(&ac->ac_inode->i_writecount) == 0)) {
ac->ac_flags|= EXT4_MB_HINT_NOPREALLOC;
return;
}
2.检查sbi->s_mb_group_prealloc是否小于等于0,如果是,采用
sbi->s_mb_group_prealloc表示per-CPU prealloc的空间大小;默认值是512blocks(不考bigalloc),可通过/sys/fs/ext4/<partition>/mb_group_prealloc设置。
sbi->s_mb_group_prealloc小于或等于0,表示无需per-CPU prealloc了。
if(sbi->s_mb_group_prealloc <= 0) {
ac->ac_flags|= EXT4_MB_STREAM_ALLOC;
return;
}
既然知道了什么时候可以使用per-inode prealloc、per-CPU prealloc,那么接下来就来分析下,如何创建。
2. 创建prealloc空间
在MultiBlockallocator分配器的主函数ext4_mb_new_blocks()中,当ac_b_ex extent的长度大于ac_o_ex extent(originextent)的长度时,multiblock allocator会调用函数ext4_mb_new_preallocation
()将多出来的空间以prealloc形式预留下来。当然,多出来的空间,multiblock allocator不舍得还给系统,只想保留下来备用;如果ac_b_exextent的长度不大于ac_o_ex extent的长度,那么即使multiblock allocator有预留的想法,也没有空间去prealloc了。
【注:ac_b_ex,即best found extent,用于描述在分配中发现的最佳extent,并申请之,通过multiblock allocator分配给目标inode。ac_o_ex,即origin
extent,用于描述原始请求的一些信息。这些结构体都已经在[分配机制 -
关键的数据结构]中说明】
ext4_mb_new_preallocation()函数中会涉及inode prealloc和per-CPU prealloc。
ext4_mb_new_preallocation()代码如下:
static int ext4_mb_new_preallocation(structext4_allocation_context *ac)
{
interr;
if(ac->ac_flags & EXT4_MB_HINT_GROUP_ALLOC)
err = ext4_mb_new_group_pa(ac);
else
err= ext4_mb_new_inode_pa(ac);
returnerr;
}
先来分析per-CPU prealloc空间的创建。
在函数ext4_mb_new_group_pa()中,初始化一个prealloc描述符ext4_prealloc_space pa,用于存放prealloc的信息,完成赋值后,将将pa连接到链表ext4_group_info->
bb_prealloc_list上。由此可见,per-CPU prealloc是具有locality的,因为prealloc是挂载到group结构体中某个链表上。
当然,也许有要说,在初始化ext4_prealloc_space pa时有:
pa->pa_len = ac->ac_b_ex.fe_len;
pa->pa_free= pa->pa_len;
这一点无需担心,pa_free会在ac释放时更新为空闲空间的长度。
下面再说一下per-inode的创建,即函数ext4_mb_new_inode_pa()。
在per-inode prealloc初始化中,还的得必须关注一个extent描述符ac->ac_g_ex,该extent实例是描述由ext4_mb_normalize_request()normalize后goal
extent。
首先比较分配的最佳ac_b_ex与目标ac_g_ex的长度,如果小于后者,说没有达标所要求的则需要更新ac_b_ex的起始逻辑块地址;如果不小于后者,则不但将该prealloc空间添加到链表ext4_group_info->
bb_prealloc_list,也会添加到ext4_inode_info->i_prealloc_list链表中。
此时per-inode prealloc也初始化完毕。
空间有了,那就分析如何使用吧。
3. Prealloc空间的使用
multiblock allocator在分配块时,首先考虑的都是prealloc空间,调用函数ext4_mb_use_preallocated()。
从prealloc空间中分配块时,分配器先查看per-inode prealloc空间,即搜索链表ext4_inode_info ->i_prealloc_list,这个链表中包含于该inode有关的所有的prealloc空间。
使用prealloce空间,是基于_logical_起始block的:只有当指定的逻辑块号落在了prealloc空间范围之内,分配器才会使用prealloc空间,这样可以保证文件空间物理地址的连续性。
如果在per-inode prealloc空间中没有找到可用blocks,并且per-CPU preallocation分配器是可用的,则尝试从locality group prealloc空间中进行分配,就是per-CPUprealloc
list:
ext4_sb_info.s_locality_groups[smp_processor_id()]
per-CPU locality group的存在,可以减少CPU之间在空间分配过程中的资源竞争。
Prealloc空间毕竟是预留但未用的空间,所以必须是要释放的。
4. 释放prealloc空间
Prealloc空间有两种:per-inode prealloc空间、per-CPU prealloc空间。在创建那节已经讨论,per-CPU
prealloc空间可以通过ext4_group_info->
bb_prealloc_list检索到,通过inode无法检索;而per-inode prealloc空间不但连接到ext4_inode_info->
i_prealloc_list链表上,也会连接到ext4_group_info->
bb_prealloc_list链表中检索到。
1.
释放指定的prealloc空间,调用ext4_mb_release_inode_pa()或ext4_mb_release_group_pa()函数实现。
2.
基于给定的inode,销毁所有未用的prealloc空间,可使用函数ext4_discard_preallocations(),其思想如下:将inode的i_prealloc_list链表上所有的prealloc空间移动到链表list上,之所以使用临时链表,减少竞争带来耗时。然后基于临时链表,先将prealloc空间从所属的ext4_group_info->bb_prealloc_list上删除,然后调用ext4_mb_release_inode_pa()释放该prealloc空间,然后从临时链表上将该prealloc空间节点删除。
3.
基于给定的group,销毁与其有关的所有未用的prealloc空间,调用函数ext4_mb_discard_group_preallocations()实现,其思想与(2)方法一致。
关于Prealloc机制,就分析到此吧。
作者:Younger Liu,
本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 未本地化版本许可协议进行许可。
[ext4]13 空间管理 - Prealloc分配机制的更多相关文章
- [ext4]空间管理 - 与分配相关的关键数据结构
在块分配机制中,涉及到几个主要的数据结构. 通过ext4_allocation_request描述块请求,然后基于块查找结果即上层需求来决定是否执行块分配操作. 在分配过程中,为了更好执行分配, ...
- [ext4]空间管理 - 分配机制
在Ext4系统中,存在很多分配策略,比如预分配.多块分配.延迟分配等 Prealloc预分配 在ext4系统中,对于小文件和大文件的空间申请请求,都有不同的分配策略.对用小文件的空间请求,e ...
- 【oracle11g,13】表空间管理2:undo表空间管理(调优) ,闪回原理
一.undo空间原理: dml操作会产生undo数据. update时,sever process 会在databuffer 中找到该记录的buffer块,没有就从datafile中找并读入data ...
- 本地管理表空间(LMT)与自动段空间管理(ASSM)概念
创建表空间时,extent management local 定义本地管理表空间(LMT),segment space management auto 定义自动段空间管理(ASSM). extent ...
- ORACLE表空间管理维护
1:表空间概念 在ORACLE数据库中,所有数据从逻辑结构上看都是存放在表空间当中,当然表空间下还有段.区.块等逻辑结构.从物理结构上看是放在数据文件中.一个表空间可由多个数据文件组成. 如下图所示, ...
- Oracle表空间管理
oracle表空间相关常用命令小结: 1.ALTER DATABASE SET DEFAULT BIGFILE TABLESPACE; //修改表空间数据文件类型 2.ALT ...
- Linux内存管理3---分页机制
1.前言 本文所述关于内存管理的系列文章主要是对陈莉君老师所讲述的内存管理知识讲座的整理. 本讲座主要分三个主题展开对内存管理进行讲解:内存管理的硬件基础.虚拟地址空间的管理.物理地址空间的管理. 本 ...
- JVM内存管理及GC机制
一.概述 Java GC(Garbage Collection,垃圾收集,垃圾回收)机制,是Java与C++/C的主要区别之一,作为Java开发者,一般不需要专门编写内存回收和垃圾清理代码,对内存泄露 ...
- Memcache简介 & 内存分配机制
关于这个东西里面到底应该存放数据网上一直有很多种说法,有的说sql进行md5之后作为键值,结果作为内容存放,也有人说按照业务逻辑错放,反正是炒的不亦乐乎. 本人经过将近2 ...
随机推荐
- Java 集合的理解(持续更新......)
一.集合的由来 通常,我们的程序需要根据程序运行时才知道创建多少个对象.但若非程序运行,程序开发阶段,我们根本不知道到底需要多少个数量的对象,甚至不知道它的准确类型.为了满足这些常规的编程需要,我们要 ...
- iOS网络编程笔记——Socket编程
一.什么是Socket通信: Socket是网络上的两个程序,通过一个双向的通信连接,实现数据的交换.这个双向连路的一端称为socket.socket通常用来实现客户方和服务方的连接.socket是T ...
- web从入门开始(2)----基础
HTML文件结构 <html> <head>//网页头标记 <title>放置标题</title> </head> <body> ...
- 百度推送-sitemap-使用playframework框架实现-java
主动推送的目的是能够把我们高质量内容推送给百度,但是首先你得有一个属于你自己的网站,在百度站长进行验证通过之后,才有资格推送百度sitemap. 百度站长平台为未使用百度统计的站点提供三种验证方式:文 ...
- Linux文件权限rwx简单了解
Ⅰ 了解Linux下的文件权限 如上图所示,ll命令详细展示当前目录下的文件或者子目录信息 红框标注的即为此文件或者目录的权限 [第一行文件10.c的权限以-开头,用来说明这是一个文件:第四行cod ...
- SOA面向服务的架构理解
Ø 单一应用架构 ·当网站流量很小时,只需一个应用,将所有功能都部署在一起,以减少部署节点和成本. Ø 垂直应用架构 当访问量逐渐增大,单一应用增加机器带来的加速度越来越小,将应用拆成互不相干的几 ...
- 用js控制css属性
在用js控制css属性时,行内css属性可以任意控制,但若是在<style></style>中写的css属性,均不能用alert读取,但是赋值却有几种现象, 第一种:无法读取, ...
- webpack学习笔记(二)-- 初学者常见问题及解决方法
这篇文章是webpack学习第二篇,主要罗列了本人在实际操作中遇到的一些问题及其解决方法,仅供参考,欢迎提出不同意见. 注:本文假设读者已有webpack方面相关知识,故文中涉及到的专有名词不做另外解 ...
- C++11右值引用和std::move语句实例解析
关键字:C++11,右值引用,rvalue,std::move,VS 2015 OS:Windows 10 右值引用(及其支持的Move语意和完美转发)是C++0x将要加入的最重大语言特性之一.从实践 ...
- Hive(笔记)
(2015.07.22Hive笔记) 一.Hive的安装 1.1Hive的安装过程 下载hive源文件(apache-hive-0.14.0-bin.tar.gz ) 解压hive文件 进入$HIVE ...