存储结构中的对齐(alignment)

　　最近，在测试基于ceph的小文件合并方案（见上个博文）时，遇到一个怪异的现象：将librados提供的append接口与我们封装的WriteFullObj接口(osd端是append操作和kvdb的put操作)对比，在处理同样大小的文件时(如4KB，8KB等)，WriteFullObj比librados的append操作tps低很多，最初怀疑可能是kvdb的put操作的原因，后来将osd端kvdb的put临时去掉，tps仍然上不去；后来使用iostat观察osd上状态，发现WriteFullObj时，uitl在50%左右，wait cpu在40左右，而librados的append则没这么高。。。。。。。。。。。再仔细观察，WriteFullObj时，r/s对应read操作在30甚至更高，而librados的append则几乎为0。。。。。。。。。。再比较二者的差异，将librados的append操作在刚刚WriteFullObj操作的文件，现象和WriteFullObj一样了。。。。再比较两个操作的文件差异，WriteFullObj操作文件大小非4KB整数倍，非4KB整数倍大小是在情理之中，因为合并时，每个小文件数据前附加了36B大小的元数据描述信息，但这为什么会影响写的性能表现和上述现象呢？脑中闪现以前做磁盘分区时遇到的情况：“warning：partition is not properly aligned for best performance”；那么在读写文件时，是否也要类似地保持alignment以提升性能呢？

经过研究结果如下：

扇区（sector)是磁盘的最小存储单位，通常为512B；块(block)是文件系统中存取的最小单位，通常为1024、2048或4096B，块也是文件系统分配和回收空间的最小单位；

当write向文件末尾追加数据时，文件系统会尝试为数据分配数据块，如果是对数据块的部分写入操作，则需要先将数据块的数据读出(此时可能会被阻塞)，然后再整体写入(fetch-before-write)；

当一个磁盘文件大小非4KB(块大小)整数倍大小，在文件末尾追加数据就是上述的部分写入操作，从而出现上述read操作很高的现象；

为了证实上述结论，测试如下：

A. 文件系统块大小4KB，调用librados的append操作，每次append数据量大小为1KB，文件最初不存在；

B. 用iostat查看，第4k+1次append时,read量几乎为0；第4k+2、4k+3、4k+4次append时，read量开始飙升；

符合预期；

同样原理，跨block读也无法将系统性能充分发挥；

为了充分提供系统性能，设计存储结构时就需要避免此类情况，业界常用的方案就是padding，write操作在4KB整数位置处；

参考：

http://www.seagate.com/cn/zh/tech-insights/advanced-format-4k-sector-hard-drives-master-ti/

https://blogs.oracle.com/dlutz/entry/partition_alignment_guidelines_for_unified

https://www.usenix.org/system/files/conference/fast15/fast15-paper-campello.pdf

http://www.storage-switzerland.com/Articles/Entries/2011/10/27_Improving_VMware_Storage_I_O_Performance_By_Realigning_Partitions.html

http://www.storagereview.com/the_impact_of_misalignment

http://noops.me/?p=747

------------------------------------

http://www.cnblogs.com/wuhuiyuan/p/4760030.html

个人原创，转载请注明出处。

存储结构中的对齐(alignment)的更多相关文章

C++ 学习笔记3，struct长度測试，struct存储时的对齐方式
之所以专门为struct的长度写一篇測试,是由于原来c++对于struct的变量, 在分配内存的时候,c++对struct有一种特殊的存储机制. 看以下的測试: 一.在Windows7 32bit , ...
c语言结构体在内存中存储，字节对齐
注意: 出于效率的考虑,C语言引入了字节对齐机制,一般来说,不同的编译器字节对齐机制有所不同,但还是有以下3条通用准则: (1)结构体变量的大小能够被其最宽基本类型成员的大小所整除: (2)结构体每个 ...
[c/c++] programming之路（28）、结构体存储和内存对齐+枚举类型+typedef+深拷贝和浅拷贝
一.结构体存储 #include<stdio.h> #include<stdlib.h> struct info{ char c; //1 2 4 8 double num; ...
C语言结构体在内存中的存储情况探究------内存对齐
条件(先看一下各个基本类型都占几个字节): void size_(){ printf("char类型:%d\n", sizeof(char)); printf("int类 ...
C-边界对齐
转自:http://blog.csdn.net/b_h_l/article/details/7738197 许多实际的计算机系统对基本类型数据在内存中存放的位置有限制,它们会要求这些数据的首地址的值 ...
数据对齐 posix_memalign 函数详解
对齐数据的对齐(alignment)是指数据的地址和由硬件条件决定的内存块大小之间的关系.一个变量的地址是它大小的倍数的时候,这就叫做自然对齐 (naturally aligned).例如,对于一 ...
解析C语言结构体对齐(内存对齐问题)
C语言结构体对齐也是老生常谈的话题了.基本上是面试题的必考题.内容虽然很基础,但一不小心就会弄错.写出一个struct,然后sizeof,你会不会经常对结果感到奇怪?sizeof的结果往往都比你声明的 ...
c语言中struct的内存对齐
为了让CPU能够更舒服地访问到变量,struct中的各成员变量的存储地址有一套对齐的机制.这个机制概括起来有两点:第一,每个成员变量的首地址,必须是它的类型的对齐值的整数倍,如果不满足,它与前一个成员 ...
C语言-结构体内存对齐
C语言结构体对齐也是老生常谈的话题了.基本上是面试题的必考题.内容虽然很基础,但一不小心就会弄错.写出一个struct,然后sizeof,你会不会经常对结果感到奇怪?sizeof的结果往往都比你声明的 ...

随机推荐

window2008 64位系统没有office组件问题分析及解决
服务器是windows server2008 64位系统, 我的系统需要用到Microsoft.Office.Interop.Excel组件在上传Excel单据遇到错误:检索 COM 类工厂中 CL ...
跨平台的游戏客户端Socket封装，调整
原文链接:http://www.cnblogs.com/lancidie/archive/2013/04/13/3019359.html 头文件: #pragma once #ifdef WIN32 ...
leetcode@ [126] Word Ladder II (BFS + 层次遍历 + DFS)
https://leetcode.com/problems/word-ladder-ii/ Given two words (beginWord and endWord), and a diction ...
algorithm@ find kth smallest element in two sorted arrays (O(log n time)
The trivial way, O(m + n): Merge both arrays and the k-th smallest element could be accessed directl ...
一张图读懂Java多线程
1.带着疑问看图 1)竞争对象的锁和竞争CPU资源以及竞争被唤醒 2)何种情况下获取到了锁,何种情况下会释放锁 2.还是那张图 3.详细图解 1)Thread t = new Thread(),初始化 ...
集合框架工具类--Collections排序
package ToolCollectionsDemo; import java.util.ArrayList; import java.util.Collections; import java.u ...
[iOS基础控件 - 6.0] UITableView
A.需要掌握的 1.基本属性和方法设置UITableView的dataSource.delegate UITableView多组数据和单组数据的展示 UITableViewCell的常见属性 UIT ...
转载 ASP.NET中如何取得Request URL的各个部分
转载原地址 http://blog.miniasp.com/post/2008/02/10/How-Do-I-Get-Paths-and-URL-fragments-from-the-HttpRequ ...
JSP九大内置对象分析
JSP九大内置对象分为三类: 1.输入输出对象:out对象.response对象.request对象 2.通信控制对象:pageContext对象.session对象.application对象 3. ...
分布式模式之broker模式
转自:http://blog.chinaunix.net/uid-23093301-id-90459.html 问题来源: 创建一个游戏系统,其将运行在互联网的环境中.客户端通过WWW服务或特定的客户 ...

存储结构中的对齐(alignment)

存储结构中的对齐(alignment)的更多相关文章

随机推荐

热门专题