作者:张华  发表于:2014-06-21
版权声明:能够随意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本版权声明

(http://blog.csdn.net/quqi99 )

作者将又一次研究ceph, 先温习一下之前作者大半年前发表在openstack中国社区的一篇理论文章(http://www.openstack.cn/p276.html),复制例如以下:

Ceph是一个支持大量小文件和随机读写的分布式文件系统,在维护 POSIX 兼容性的同一时候添加了复制和容错功能。眼下Ceph已经被加到了Linux内核之中,尽管可能还不适用于生产环境。它也想实现统一存储的目标,即:

  • 对象系统,相似Swift, 这里是RADOS, Reliable Autonomic Distributed Object Store, 可靠的自主分布式对象存储。在每台host上都要执行OSD(Object Storage Daemon)进程,当然,假设已经用RAID, LVM或btrf,xfs(最好别用ext4)将每台host上的硬盘都做成一个池了的话,执行一个OSD就能够了。OSD会默认创建三个池:data, metadaRBD 。同一时候,在每台host上还要执行MON (Monitor)进程。
  • 文件存储,相似Hadoop中的HDFS,但HDFS是流式存储,即一次写多次读。想使用Ceph文件存储的话,那还在每台host上还要执行MDS(Meta-Data Server)进程。MDS是在对象系统的基础之上为Cephclient又提供的一层POSIX文件系统抽象实现。
  • 块存储相似Cinder

这样说来,至少有下列几种方式能够訪问Ceph中的对象:

  • RADOS方式,RADOS是Ceph的基础,即使对于Ceph文件存储,底层也是使用RADOS,RADOS本来提供一个librados库来訪问对象,这个库支持php, java, python, c/c++。还通过RADOS Gateway来提供和SwiftAmazon-S3兼容的REST接口
  • RBD(rados block device)QEMU-RBD,前面说了,Ceph已经加到内核了,所以能够使用内核的RBD驱动来訪问对象,它也和QEMU-RBD兼容。
  • CephFS, 上述MDS提供的POSIX兼容的文件系统。在生产系统中,建议用以上三种方式,不建议这样的。

   一个数据块详细存放在哪些host上须要有元数据来描写叙述,HDFS是在一台机器上集中存储元数据的(HA能够通过配置主备实现),Swift则全然是分布式的,一个数据块详细存放在哪些host(在Ceph中称OSD, OSD是在host上维护数据块的一个进程)上由一致性哈希算法决定,元数据使用rsync命令同步分布在每个host上,所以须要分级来减小元数据的大小,所以也就有了Accounts, Containers, Objects这三级RING。相应在RADOS中,有两级映射,先经过哈希把key映射到PG (Placement Group),再通过一致性哈希函数CRUSHPGID映射到实际存储数据的host (OSD)。Swift使用的一致性哈希算法使用flat的host列表,可是CRUSH这样的一致性哈希算法使用的host列表具有层次结构(shelves, racks, rows),而且能同意用户通过指定policies把复制存放在不同的机架。剩下的事和Swift相似,CRUSH会生成在RING上产生副本信息,第一个副本是主,其他是从,主负责接收来自client的写,及协调多个client的写,主再将数据写给从,待主返回结果后,主才告诉用户写成功,所以副本是强一致性的,这点和AWS dynamo这些终于一致性的做法有些差别。当新增机器或发生宕机时,和swift也相似,CRUSH一致性哈希算法也会保证数据的抖动性最小(即转移的数据块最少)。

除了存储节点外,另一些监控节点组成的小集群,负责监控存储节点的执行状态,它们通过Paxos协议达到一致和保持数据冗余,PaxosZooKeeper中用到的领导者选择算法Zap协议相似,仅仅要保证这些host中的大多数host不出故障即可,而且我们一般选择奇数台host,举个样例,在5个host的监控集群中,不论什么两台机器故障的情况下服务都能继续执行。

在一致性保证方面,在ZooKeeper中,领导者与尾随者非常聪明,尾随者通过更新号(唯一的全局标识叫zxid, ZooKeeper Transaction ID)来滞后领导者,这样大部分host确认更新之后,写操作就能被提交了。Ceph换汤不换药,这个全局标识改了个名叫epoch序号,所以Monitor节点记录的是epoch序号和一些全局状态(如存储节点是否在线,地址port等),非常轻量,每个监測到存储节点发生变更时,如存储节点上线或下线,将epoch序号添加以差别先前的状态。总之,Monitor节点维护了这些集群状态映射对象ClusterMap,包含:monitor map, OSD map, placement group (PG) map, CRUSH map, epoch map。比如当存储节点宕机时,监控节点发现后更新epoch和ClusterMap,然后通过gossip p2p方式推送给存储节点(这样的p2p通知和存储节点自主复制和HDFS中的master-slave模型是有差别的),存储节点再又一次计算CRUSH决定将宕机机器丢失副本补上,因为一致性哈希的特性,发生变更的PG不会非常多,也就是说抖动性不会非常大。

通过将Ceph与现有的Swift, Hadoop等现有技术一坐标映射,到了这一步,笔者也就清楚Ceph是做什么的了。有机会再看看OpenStack是如何用它的,以及它是如何详细安装部署的。 

參考文献:

http://ceph.com/docs/next/architecture/

http://blog.csdn.net/quqi99/article/details/7438258

http://codingstory.com/2013/01/06/rados/

http://www.sebastien-han.fr/blog/2012/06/10/introducing-ceph-to-openstack/

比較Swift与HDFS话Ceph本质(by quqi99)的更多相关文章

  1. 分布式存储中HDFS与Ceph两者的区别是什么,各有什么优势?

    过去两年,我的主要工作都在Hadoop这个技术栈中,而最近有幸接触到了Ceph.我觉得这是一件很幸运的事,让我有机会体验另一种大型分布式存储解决方案,可以对比出HDFS与Ceph这两种几乎完全不同的存 ...

  2. Swift系列十 - inout的本质

    inout是可以用来在函数内部修改外部属性内存的. 一.inout回顾 示例代码: func test(_ num: inout Int) { num = 20 } var a = 10 test(& ...

  3. Ubuntu 14.04下单节点Ceph安装(by quqi99)

    作者:张华  发表于:2014-06-23版权声明:能够随意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本版权声明 (http://blog.csdn.net/quqi99 ) Ceph ...

  4. “CEPH浅析”系列之六——CEPH与OPENSTACK

    在 <"Ceph浅析"系列之二--Ceph概况>中即已提到,关注Ceph的原因之一,就是OpenStack社区对于Ceph的重视.因此,本文将对Ceph在OpenSta ...

  5. Alluxio1.0.1最新版(Tachyon为其前身)介绍,+HDFS分布式环境搭建

    Alluxio(之前名为Tachyon)是世界上第一个以内存为中心的虚拟的分布式存储系统.它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁. 应用只需要连接Alluxio即可访问存储在底 ...

  6. Linux运维---1.Ceph分布式存储架构及工作原理

    Ceph理论 Ceph 简介 Ceph 是一个开源项目,它提供软件定义的.统一的存储解决方案 .Ceph 是一个具有高性能.高度可伸缩性.可大规模扩展并且无单点故障的分布式存储系统 . Ceph 是软 ...

  7. 1.Ceph 基础篇 - 存储基础及架构介绍

    文章转载自:https://mp.weixin.qq.com/s?__biz=MzI1MDgwNzQ1MQ==&mid=2247485232&idx=1&sn=ff0e93b9 ...

  8. 【转载】OpenStack Swift学习笔记

    免责声明:     本文转自网络文章,转载此文章仅为个人收藏,分享知识,如有侵权,请联系博主进行删除.     原文作者:崔炳华      原文地址:http://blog.csdn.net/i_ch ...

  9. HDFS概述(1)————HDFS架构

    概述 Hadoop分布式文件系统(HDFS)是一种分布式文件系统,用于在普通商用硬件上运行.它与现有的分布式文件系统有许多相似之处.然而,与其他分布式文件系统的区别很大.HDFS具有高度的容错能力,旨 ...

随机推荐

  1. Jetty:配置安全

    用${jetty.home}和${jetty.base}配置安全 Jetty 9.1中:  1)${jetty.home}是jetty公布(二进制)的文件夹路径:  2)${jetty.base}是用 ...

  2. 马航MH17事件将把普京逼入绝境?

    据7月22日报道,马克兰东部民间武装22日凌晨将失事客机的"黑匣子"交给马来西亚方面.乌政府与民间武装允许在坠机地点附的小范围停火. 与此同一时候,联合国安理会21日通过决议,敦促 ...

  3. Swift - 加速传感器(CoreMotion)的用法,小球加速运动并反弹样例

    1,加速传感器可以监听到x,y,z三个方向的加速度,使用步骤如下: (1)实例化CMMotionManager类 (2)向CMMotionManager的accelerometerUpdateInte ...

  4. 查看进程所用的内存(使用GetWindowThreadProcessId取得进程ID,OpenProcess打开进程和GetProcessMemoryInfo取得内存信息)

    // function GetProcessMemorySize(_sProcessName: string; var _nMemSize: Cardinal): Boolean; var l_nWn ...

  5. 为Delphi程序增加UAC功能(每个步骤都很详细)

    相关资料:http://bbs.csdn.net/topics/320071356# 操作方法: 在Source\VCL目录下应该有这样两个文件sample.manifest和WindowsXP.rc ...

  6. java之jvm学习笔记十三(jvm基本结构)

    java之jvm学习笔记十三(jvm基本结构) 这一节,主要来学习jvm的基本结构,也就是概述.说是概述,内容很多,而且概念量也很大,不过关于概念方面,你不用担心,我完全有信心,让概念在你的脑子里变成 ...

  7. hdu1217Arbitrage--解题报告

    题意:套利,一个US币换取0.5 British pound,而1 British pound 换取10.0 French francs,同一时候 1 French franc buys 0.21 U ...

  8. OSG+VS2010+win7环境搭建

    Win7下 osg+vs2010环境搭建 一.相关准备 a) Osg源代码 当前最新版:OpenSceneGraph的3.0.0.zip 下载链接: http://www.openscenegraph ...

  9. hdu3068之manacher算法+详解

    最长回文 Time Limit: 4000/2000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others) Total Submi ...

  10. 通用型CRM还是行业型CRM?-定制为王

    大数据时代,怎样利用工具摆脱繁杂的数据管理之苦,洞察有价值的销售信息,是每一个管理者的迫切须要.Zoho  CRM问世10年来,见证了一个个行业客户怎样在CRM帮助下实现了效率和业绩提升.相同,广泛的 ...