ceph 目前是开源社区比较流行的分布式块存储系统，其以良好的架构，稳定性和完善的数据服务功能，获得的了广泛的部署和应用。

目前ceph 最大的问题是其性能相对较差，特别是无法发挥SSD等高速设备的硬件的性能。 Ceph 开源社区一直在优化ceph的性能问题。目前的结果就是引入了新的object store，这就是最进合并入ceph master的BlueStore.

Bluestore的架构

如上图所示：

BlueStore整体架构分为四个部分：

BlockDevice为最底层的块设备，BlueStore直接操作块设备，抛弃了XFS等本地文件系统。BlockDevice在用户态直接以linux系统实现的AIO直接操作块设备文件。
BlueFS是一个小的文件系统，其文件系统的文件和目录的元数据都保存在全部缓存在内存中，持久化保存在文件系统的日志文件中，当文件系统重新mount时，重新replay该直接，就可以加载所有的元数据到内存中。其数据和日志文件都直接保存在依赖低层的BlockDevice中
RocksDB 是Facebook在leveldb上开发并优化的KV存储系统。BlueFS的主要的目的，就是支持RocksDB
BlueStore是最终基于RocksDB和BlockDevice实现的ceph的对象存储，其所有的元数据都保存在RocksDB这个KV存储系统中，包括collection，对象，omap，磁盘空间分配记录等都保存RocksDB里, 其对象的数据直接保存在BlockDevice

BlockDevice

BlockDevice 块设备，其对于一个物理块设备（目前也支持用XFS的一个大文件里实现），用来存储实际的数据。其实现在bluestore/BlockDevice.cc 和 bluestore/BlockDevice.h

其主要实现了异步写操作，写操作是通过操作系统提供的异步io调用。 由于操作系统支持的aio操作只支持directIO，所以对BlockDevice的写操作直接写入磁盘，并且需要按照page对齐。其内部有一个aio_thread 线程，用来检查aio是否完成。其完成后，调用 aio_callback_t aio_callback; 回调函数通知调用方。
目前BlocekDevice的读操作是同步读操作。有待继续实现异步的读操作。

BlueFS

BlueFs 既然是一个文件系统，就要解决的是元数据的分配管理，其次解决文件空间的分配和管理，以及磁盘空间的分配和管理。

由于BlueFS用来支持RocksDB，所以就不是一个通用的文件系统，它的功能足以支持RocksDB 就可以了。所以它只支持以下功能：

文件只支持顺序写
只支持两层目录

BlueFS的元数据

BlueFS中，文件的元数据由 bluefs_fnode_t 保存

struct bluefs_fnode_t {

  uint64_t ino;  //文件的ino

  uint64_t size;  //文件大小

  utime_t mtime;  // 修改时间

  uint8_t prefer_bdev; //优先在该设备上分配空间

  vector<bluefs_extent_t> extents; //文件在磁盘上分配的空间

  ......

}

bluefs_extents_t 代表在磁盘上的分配的extents

struct bluefs_extent_t {

  uint64_t offset;  //块设备上的 extent偏移量

  uint32_t length;  // extent的长度

  uint16_t bdev;   //对于的块设备

  ......

}

目录对应的结构 Dir

struct Dir {

    map<string,FileRef> file_map;

  };

对于BlueFS

所有的元数据（文件和目录）都需要缓存在内存中
所有的元数据的修改都记录在BlueFS的日志中，也就是对于BlueFS，元数据的持久化保存在日志中，当重新mount文件系统时，只需要replay日志，就可以获取所有元数据

//BlueFS的元数据cache

map<string, Dir*> dir_map;                      ///< dirname -> Dir

ceph::unordered_map<uint64_t,FileRef> file_map;  ///< ino -> File

BlueFS的读写

uint64_t size = 1048476 * 128;

  string fn = get_temp_bdev(size);

  BlueFS fs;

  ASSERT_EQ(0, fs.add_block_device(0, fn));

  fs.add_block_extent(0, 1048576, size - 1048576);

  uuid_d fsid;

  ASSERT_EQ(0, fs.mkfs(fsid));

  ASSERT_EQ(0, fs.mount());

  {

    BlueFS::FileWriter *h;

    ASSERT_EQ(0, fs.mkdir("dir"));

    ASSERT_EQ(0, fs.open_for_write("dir", "file", &h, false));

    bufferlist bl;

    bl.append("foo");

    h->append(bl);

    bl.append("bar");

    h->append(bl);

    bl.append("baz");

    h->append(bl);

    fs.fsync(h);

    fs.close_writer(h);

  }

  {

    BlueFS::FileReader *h;

    ASSERT_EQ(0, fs.open_for_read("dir", "file", &h));

    bufferlist bl;

    BlueFS::FileReaderBuffer buf(4096);

    ASSERT_EQ(9, fs.read(h, &buf, 0, 1024, &bl, NULL));

    ASSERT_EQ(0, strncmp("foobarbaz", bl.c_str(), 9));

    delete h;

  }

  fs.umount();

上述代码来自test_bluefs.cc的BlueFS的测试代码，展示了 BlueFS文件系统的使用。

文件系统调用函数fs.add_block_device 来添加设备到BlueFS中。
- 创建了以新的BlockDevice
- 把该设备添加到bdev列表中，并添加相应的IOContext 到ioc中
调用 fs.add_block_extent把设备的空间添加到bluefs中
调用函数fs.mkdir创建目录
调用函数 fs.open_for_write 打开一个文件，如果不存在，就创建
调用h->append 写数据，目前数据都只是Cache在内存zhong
最后调用 fs.fsync，本函数真正的把bluefs的数据和元数据写入磁盘

RocksDB on BlueFS

如何在BlueFS上实现RocksDB？对RocksDB，只要实现 rocksdb::EnvWrapper接口即可。BlueRocksEnv.cc 和 BlueRocksEnv.h 实现了class BlueRocksEnv 来完成此工作。

Bluestore 实现

BlueStore的元数据

Bluestore的所有的元数据都以KV对的形式写入RocksDB中，主要有以下的元数据：

保存BlueStore的超级块信息,在KV中，以PREFIX_SUPER为Key的前缀
const string PREFIX_SUPER = “S”; // field -> value
保存Collection的元数据信息bluestore_cnode_t
const string PREFIX_COLL = “C”; // collection name -> cnode_t
保存对象的元数据信息
const string PREFIX_OBJ = “O”; // object name -> onode_t

需要主要的是，onode 和 enode的信息都以PREFIX_OBJ 为前缀，只是同一个对象的onode和 enode的信息的key不同来区分。
保存 overly 信息
const string PREFIX_OVERLAY = “V”; // u64 + offset -> data
保存对象的omap 信息
const string PREFIX_OMAP = “M”; // u64 + keyname -> value
保存 write ahead log 信息
const string PREFIX_WAL = “L”; // id -> wal_transaction_t
保存块设备的空闲extent信息
const string PREFIX_ALLOC = “B”; // u64 offset -> u64 length (freelist)

onode
数据结构onode 保存了BlueStore中一个对象的数据结构，字段和Filestore差不多，这里就不详细介绍。
Enode
数据结构Enode定义了一个共享的extent，也就是这段数据被多个对象共享，一个对象的onode里保存一个enode数据结构，记录该对象被共享的extent.这个shared extent 用来对象基于extent的Copy-on-write 机制

struct Enode : public boost::intrusive::unordered_set_base_hook<> {

    atomic_t nref;    //< reference count

    uint32_t hash;

    string key;      //< key under PREFIX_OBJ where we are stored

    EnodeSet *enode_set;  //< reference to the containing set

    bluestore_extent_ref_map_t ref_map;

    boost::intrusive::unordered_set_member_hook<> map_item;

数据结构bluestore_extent_ref_map_t 定义了shared extent 被哪些对象引用

struct bluestore_extent_ref_map_t {

  struct record_t {

    uint32_t length;

    uint32_t refs;

    ......

  };

  ......

  map<uint64_t,record_t> ref_map;

}

BlueStore的数据读写

Bluestore的数据写入分为两类：

数据是整块覆盖写，也就是min_alloc_size对齐的写入。对于这一类写入：
- 重新分配新的存储空间
- 把数据写入新分配存储空间
- 删除旧的存储空间
partial write，在这种情况下，部分块的写入，在这种情况下：
- overly write
- wal write
  这种两种方式都是先把数据写入 KV 存储中，后续再apply到实际的存储空间中，不同之处在于触发条件不同。

总结

BlueStore 其实是实现了用户态的一个文件系统。为了实现简单，又使用了RocksDB来实现了BlueStore的所有的元数据的管理，简化了实现。

优点在于：

对于整块数据的写入，数据直接aio的方式写入磁盘，避免了filestore的先写日志，后apply到实际磁盘的两次写盘。
对于随机IO，直接WAL的形式，直接写入RocksDB 高性能的KV存储中
http://www.cnblogs.com/lucas-sre/p/7096856.html

ceph后端支持多种存储引擎，以插件式的方式来进行管理使用，目前支持filestore，kvstore，memstore以及最新的bluestore，目前默认使用的filestore

Ceph OSD从filestore 转换到 bluestore的方法

ceph存储 ceph Bluestore的架构的更多相关文章

ceph存储引擎bluestore解析
原文链接:http://www.sysnote.org/2016/08/19/ceph-bluestore/ ceph后端支持多种存储引擎,以插件式的方式来进行管理使用,目前支持filestore,k ...
深度长文：深入理解Ceph存储架构
点击上方"开源Linux",选择"设为星标" 回复"学习"获取独家整理的学习资料! 本文是一篇Ceph存储架构技术文章,内容深入到每个存储特 ...
高性能arm运行ceph存储基准测试
关于arm 之前wdlab对外发布过一次约500个节点的arm的ceph集群,那个采用的是微集群的结构,使用的是双核的cortex-a9 ARM处理器,运行速度为1.3 GHz,内存为1 GB,直接焊 ...
初试 Centos7 上 Ceph 存储集群搭建
转载自:https://cloud.tencent.com/developer/article/1010539 1.Ceph 介绍 Ceph 是一个开源的分布式存储系统,包括对象存储.块设备.文件系统 ...
我所了解的各公司使用的 Ceph 存储集群 (携程、乐视、有云、宝德云、联通等)
Ceph 作为软件定义存储的代表之一,最近几年其发展势头很猛,也出现了不少公司在测试和生产系统中使用 Ceph 的案例,尽管与此同时许多人对它的抱怨也一直存在.本文试着整理作者了解到的一些使用案例. ...
Ceph 存储集群
Ceph 存储集群 Ceph 作为软件定义存储的代表之一,最近几年其发展势头很猛,也出现了不少公司在测试和生产系统中使用 Ceph 的案例,尽管与此同时许多人对它的抱怨也一直存在.本文试着整理作者了解 ...
Ceph基础知识和基础架构认识
1 Ceph基础介绍 Ceph是一个可靠地.自动重均衡.自动恢复的分布式存储系统,根据场景划分可以将Ceph分为三大块,分别是对象存储.块设备存储和文件系统服务.在虚拟化领域里,比较常用到的是Cep ...
Ceph 基础知识和基础架构认识
1 Ceph基础介绍 Ceph是一个可靠地.自动重均衡.自动恢复的分布式存储系统,根据场景划分可以将Ceph分为三大块,分别是对象存储.块设备存储和文件系统服务.在虚拟化领域里,比较常用到的是Cep ...
什么是Ceph存储？什么是分布式存储？简单明了带你学Ceph--<1>
Ceph存储介绍为什么要用Ceph Ceph是当前非常流行的开源分布式存储系统,具有高扩展性.高性能.高可靠性等优点,同时提供块存储服务(rbd).对象存储服务(rgw)以及文件系统存储服务(cep ...

随机推荐

区块链 block chain 去信任
去中心化:不以参与交易的任何一方为中心去信任:假定参与交易的任何一方都是不可信任的区块链受到关注的原因去中心化.去信任化.智能合约等,正好满足未来互联网持续发展所要求的信息的盖度自动化和高度程序 ...
模块化之SeaJS(一)
模块化(之SeaJS) 刚接触的童鞋可能会有很多疑惑,比喻:什么是模块?模块的目的是干嘛呀?怎么样实现模块化呢? 不要急,博主正是带着这三个问题来写这篇文章的. 一,什么是模块化? 在前端开发领域,一 ...
MyBatis 映射文件详解
1. MyBatis 映射文件之<select>标签 <select>用来定义查询操作; "id": 唯一标识符,需要和接口中的方法名一致; paramet ...
【pip】【conda】
1.指定python包安裝版本== 指定python包安裝源-i: pip2 -i https://pypi.tuna.tsinghua.edu.cn/simple 2.配置文件换源 vi ~/.p ...
JS练习--自动生成100个li
点击按钮,自动生成100个li,红.黄.蓝.绿四种颜色的顺序显示出现在页面中 CSS: ;;} ul,li{list-style: none;} #ul1{position: relative;} # ...
hibernate自动建表之engine设置
1.MYSQL的数据库引擎中,只有InnoDB和BDB(Berkley DB )包括了对事务处理和外键的支持.如果数据引擎建为MyISAM则rollback无效. 2.而hibernate自动建表的时 ...
Erlang正则解析操作文件
-module(tool). %% ==================================================================== %% API functi ...
002-主流区块链技术特点及Hyperledger Fabric V0.6版本特点
一.主流区块链技术特点二.HyperLedger子项目三.Hyperledger fabric架构 V0.6逻辑架构: V0.6区块链网络对应的0.6版本的运行时架构: 0.6版本的架构特点是: ...
DBMS_MONITOR程序开启10046事件
在具有连接池或共享服务器的多层环境中,一个会话可以跨越多个进程,甚至跨越多个实例.DBMS_MONITOR是在Oracle 10g中引入的内置的程序包,通过该程序包可以跟踪从客户机到中间层.再到后端数 ...
Spark 1.5新特性介绍
一.DataFrame执行后端优化(Tungsten第一阶段) DataFrame可以说是整个Spark项目最核心的部分,在1.5这个开发周期内最大的变化就是Tungsten项目的第一阶段已经完成.主 ...

ceph存储 ceph Bluestore的架构