openstack高可用集群16-ceph介绍和部署

Ceph

Ceph是一个可靠、自动重均衡、自动恢复的分布式存储系统，根据场景划分可以将Ceph分为三大块，分别是对象存储、块设备和文件系统服务。块设备存储是Ceph的强项。

Ceph的主要优点是分布式存储，在存储每一个数据时，都会通过计算得出该数据存储的位置，尽量将数据分布均衡，不存在传统的单点故障的问题，可以水平扩展。

Ceph架构

RADOS自身是一个完整的分布式对象存储系统，它具有可靠、智能、分布式等特性，Ceph的高可靠、高可拓展、高性能、高自动化都是由这一层来提供的，用户数据的存储最终也都是通过这一层来进行存储的，RADOS可以说就是Ceph的核心组件。

RADOS系统主要由两部分组成，分别是OSD和Monitor。

基于RADOS层的上一层是LIBRADOS，LIBRADOS是一个库，它允许应用程序通过访问该库来与RADOS系统进行交互，支持多种编程语言，比如C、C++、Python等。

基于LIBRADOS层开发的又可以看到有三层，分别是RADOSGW、RBD和CEPH FS。

RADOSGW：RADOSGW是一套基于当前流行的RESTFUL协议的网关，并且兼容S3和Swift。

RBD：RBD通过Linux内核客户端和QEMU/KVM驱动来提供一个分布式的块设备。

CEPH FS：CEPH FS通过Linux内核客户端和FUSE来提供一个兼容POSIX的文件系统。

Ceph核心组件RADOS

RADOS系统主要由两部分组成，分别是OSD和Monitor。

Ceph OSD：OSD的英文全称是Object Storage Device，它的主要功能是存储数据、复制数据、平衡数据、恢复数据等，与其它OSD间进行心跳检查等，并将一些变化情况上报给Ceph Monitor。一般情况下一块硬盘对应一个OSD，由OSD来对硬盘存储进行管理，当然一个分区也可以成为一个OSD。

Ceph Monitor：由该英文名字我们可以知道它是一个监视器，负责监视Ceph集群，维护Ceph集群的健康状态，同时维护着Ceph集群中的各种Map图，比如OSD Map、Monitor Map、PG Map和CRUSH Map，这些Map统称为Cluster Map，Cluster Map是RADOS的关键数据结构，管理集群中的所有成员、关系、属性等信息以及数据的分发，比如当用户需要存储数据到Ceph集群时，OSD需要先通过Monitor获取最新的Map图，然后根据Map图和object id等计算出数据最终存储的位置。

为保证高可用性， Ceph 存储集群应该保存两份以上的对象副本。Ceph OSD 守护进程自动在其它 Ceph 节点上创建对象副本来确保数据安全和高可用性。

Ceph 监视器维护着集群运行图的主副本。为保证高可用性，监视器也实现了集群化。一个监视器集群确保了当某个监视器失效时的高可用性。

Ceph数据分布算法

Ceph是为大规模分布式存储而设计的，数据分布算法必须能够满足在大规模的集群下数据依然能够快速的准确的计算存放位置，同时能够在硬件故障或扩展硬件设备时做到尽可能小的数据迁移，Ceph的CRUSH算法就是精心为这些特性设计的。

在说明CRUSH算法的基本原理之前，先介绍几个概念和它们之间的关系。

Object：当用户要将数据存储到Ceph集群时，存储数据都会被分割成多个Object，每个Object都有一个object id，每个Object的大小是可以设置的，默认是4MB，Object可以看成是Ceph存储的最小存储单元。

PG：由于Object的数量很多，所以Ceph引入了PG的概念用于管理Object，每个Object最后都会通过CRUSH计算映射到某个PG中，一个PG可以包含多个Object。

PG与OSD的关系：PG也需要通过CRUSH计算映射到OSD中去存储，如果是二副本的，则每个PG都会映射到二个OSD，比如[OSD#1,OSD#2]，那么OSD#1是存放该PG的主副本，OSD#2是存放该PG的从副本，保证了数据的冗余。

把对象映射到归置组在 OSD 和客户端间创建了一个间接层。由于 Ceph 集群必须能增大或缩小、并动态地重均衡。如果让客户端“知道”哪个 OSD 有哪个对象，就会导致客户端和 OSD 紧耦合；相反， CRUSH 算法把对象映射到归置组、然后再把各归置组映射到一或多个 OSD ，这一间接层可以让 Ceph 在 OSD 守护进程和底层设备上线时动态地重均衡。下列图表描述了 CRUSH 如何将对象映射到归置组、再把归置组映射到 OSD 。

PG和PGP的关系：pg是用来存放object的，pgp相当于是pg存放osd的一种排列组合，我举个例子，比如有3个osd，osd.1、osd.2和osd.3，副本数是2，如果pgp的数目为1，那么pg存放的osd组合就只有一种，可能是[osd.1,osd.2]，那么所有的pg主从副本分别存放到osd.1和osd.2，如果pgp设为2，那么其osd组合可以两种，可能是[osd.1,osd.2]和[osd.1,osd.3]，是不是很像我们高中数学学过的排列组合，pgp就是代表这个意思。一般来说应该将pg和pgp的数量设置为相等。

object、pg、pool、osd、存储磁盘的关系

本质上CRUSH算法是根据存储设备的权重来计算数据对象的分布的，权重的设计可以根据该磁盘的容量和读写速度来设置，比如根据容量大小可以将1T的硬盘设备权重设为1，2T的就设为2，在计算过程中，CRUSH是根据Cluster Map、数据分布策略和一个随机数共同决定数组最终的存储位置的。

Cluster Map里的内容信息包括存储集群中可用的存储资源及其相互之间的空间层次关系，比如集群中有多少个支架，每个支架中有多少个服务器，每个服务器有多少块磁盘用以OSD等。

数据分布策略是指可以通过Ceph管理者通过配置信息指定数据分布的一些特点，比如管理者配置的故障域是Host，也就意味着当有一台Host起不来时，数据能够不丢失，CRUSH可以通过将每个pg的主从副本分别存放在不同Host的OSD上即可达到，不单单可以指定Host，还可以指定机架等故障域，除了故障域，还有选择数据冗余的方式，比如副本数或纠删码。

使用ceph-deploy工具部署ceph

官方文档： https://docs.ceph.com/docs/master/start/

实验环境

10.30.1.221 192.168.9.211 ceph-host-01

10.30.1.222 192.168.9.212 ceph-host-02

10.30.1.223 192.168.9.213 ceph-host-03

10.30.1.224 192.168.9.214 ceph-host-04

每个主机上有4块空闲盘

ceph集群节点系统这里采用了centos7.5 64位。总共5台ceph节点机，每台节点机启动2个osd角色，每个osd对应一块物理磁盘。

关闭selinux和防火墙

setenforce 0

sed -i 's/SELINUX=.*/SELINUX=disabled/' /etc/selinux/config

systemctl stop firewalld

systemctl disable firewalld

1.安装ceph-deloy

1.1配置主机名，配置host文件，本例ceph-deploy安装在其中一个节点上。

[root@ceph-host-01 ~]# cat /etc/hosts

127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4

::1 localhost localhost.localdomain localhost6 localhost6.localdomain6

10.30.1.221 ceph-host-01

10.30.1.222 ceph-host-02

10.30.1.223 ceph-host-03

10.30.1.224 ceph-host-04

或者使用ansible给所有节点更改/etc/hosts文件

# ansible ceph -m copy -a 'src=/tmp/hosts dest=/etc/hosts'

2.2使用ssh-keygen生成key,并用ssh-copy-id复制key到各节点机。

[root@ceph-host-01 ~]# ssh-keygen

Generating public/private rsa key pair.

Enter file in which to save the key (/root/.ssh/id_rsa):

Created directory '/root/.ssh'.

Enter passphrase (empty for no passphrase):

Enter same passphrase again:

Your identification has been saved in /root/.ssh/id_rsa.

Your public key has been saved in /root/.ssh/id_rsa.pub.

The key fingerprint is:

SHA256:iVPfxuQVphRA8v2//XsM+PxzWjYrx5JnnHTbBdNYwTw root@ceph-host-01

The key's randomart image is:

+---[RSA 2048]----+

| ..o.o.=..|

| o o o E.|

| . . + .+.|

| o o = o+ .|

| o S . =..o |

| . .. .oo|

| o=+X|

| +o%X|

| B*X|

+----[SHA256]-----+

以将key复制到ceph-host-02为例

[root@ceph-host-01 ~]# ssh-copy-id ceph-host-02

/usr/bin/ssh-copy-id: INFO: Source of key(s) to be installed: "/root/.ssh/id_rsa.pub"

The authenticity of host 'ceph-host-02 (10.30.1.222)' can't be established.

ECDSA key fingerprint is SHA256:VsMfdmYFzxV1dxKZi2OSp8QluRVQ1m2lT98cJt4nAFU.

ECDSA key fingerprint is MD5:de:07:2f:5c:13:9b:ba:0b:e5:0e:c2:db:3e:b8:ab:bd.

Are you sure you want to continue connecting (yes/no)? yes

/usr/bin/ssh-copy-id: INFO: attempting to log in with the new key(s), to filter out any that are already installed

/usr/bin/ssh-copy-id: INFO: 1 key(s) remain to be installed -- if you are prompted now it is to install the new keys

root@ceph-host-02's password:

Number of key(s) added: 1

Now try logging into the machine, with: "ssh 'ceph-host-02'"

and check to make sure that only the key(s) you wanted were added.

1.3安装ceph-deploy.

安装前我们配置下yum源，这里使用的是较新的nautilus版本

[root@ceph-host-01 ~]# cat /etc/yum.repos.d/ceph.repo

[Ceph]

name=Ceph packages for $basearch

baseurl=http://mirrors.aliyun.com/ceph/rpm-nautilus/el7/$basearch

enabled=1

gpgcheck=1

type=rpm-md

gpgkey=https://download.ceph.com/keys/release.asc

[Ceph-noarch]

name=Ceph noarch packages

baseurl=http://mirrors.aliyun.com/ceph/rpm-nautilus/el7/noarch

enabled=1

gpgcheck=1

type=rpm-md

gpgkey=https://download.ceph.com/keys/release.asc

[ceph-source]

name=Ceph source packages

baseurl=http://mirrors.aliyun.com/ceph/rpm-nautilus/el7/SRPMS

enabled=1

gpgcheck=1

type=rpm-md

gpgkey=https://download.ceph.com/keys/release.asc

注：直接安装官方yum源的命令如下

yum install -y https://mirrors.aliyun.com/ceph/rpm-nautilus/el7/noarch/ceph-release-1-0.el7.noarch.rpm

使用ansible给所有节点导入yum源，这样效率更高

# ansible ceph -m copy -a 'src=/etc/yum.repos.d/ceph.repo dest=/etc/yum.repos.d/ceph.repo'

[root@ceph-host-01 ~]# yum install ceph-deploy python-setuptools python2-subprocess32 -y

2.创建ceph monitor角色

2.1在使用ceph-deploy部署的过程中会产生一些配置文件，建议先创建一个目录，例如cpeh-cluster

[root@ceph-host-01 ~]# mkdir -pv ceph-cluster

[root@ceph-host-01 ~]# cd ceph-cluster

2.2初始化mon节点，准备创建集群：

[root@ceph-host-01 ceph-cluster]# ceph-deploy new ceph-host-01 ceph-host-02 ceph-host-03

更改生成的 ceph 集群配置文件

[root@ceph-host-01 ceph-cluster]# cat ceph.conf

[global]

fsid = a480fcef-1c4b-48cb-998d-0caed867b5eb

mon_initial_members = ceph-host-01, ceph-host-02, ceph-host-03

mon_host = 10.30.1.221,10.30.1.222,10.30.1.223

auth_cluster_required = cephx

auth_service_required = cephx

auth_client_required = cephx

mon clock drift allowed = 2

mon clock drift warn backoff = 30

# 网络配置

public_network = 10.30.1.0/24

cluster_network = 192.168.9.0/24

#更改 osd 个数

osd pool default size = 5

[mon]

#允许 ceph 集群删除 pool

mon_allow_pool_delete = true

[mgr]

mgr modules = dashboard

2.3所有节点安装ceph程序

使用ceph-deploy来安装ceph程序，也可以单独到每个节点上手动安装ceph,根据配置的yum源不同，会安装不同版本的ceph

[root@ceph-host-01 ceph-cluster]# ceph-deploy install --no-adjust-repos ceph-host-01 ceph-host-02 ceph-host-03 ceph-host-04

# 不加--no-adjust-repos 会一直使用ceph-deploy提供的默认的源，很坑

提示：若需要在集群各节点独立安装ceph程序包，其方法如下：

# yum install -y https://mirrors.aliyun.com/ceph/rpm-nautilus/el7/noarch/ceph-release-1-0.el7.noarch.rpm

# yum install ceph ceph-radosgw -y

2.4配置初始mon节点，并收集所有密钥

[root@ceph-host-01 ceph-cluster]# ceph-deploy mon create-initial

2.5查看启动服务

# ps -ef|grep ceph

ceph 1916 1 0 12:05 ? 00:00:03 /usr/bin/ceph-mon -f --cluster ceph --id ceph-host-01 --setuser ceph --setgroup ceph

2.6在管理节点把配置文件和 admin 密钥拷贝到管理节点和 Ceph 节点

[root@ceph-host-01 ceph-cluster]# ceph-deploy admin ceph-host-01 ceph-host-02 ceph-host-03 ceph-host-04

在每个节点上赋予 ceph.client.admin.keyring 有操作权限

# chmod +r /etc/ceph/ceph.client.admin.keyring

或者使用ansible批量给ceph节点添加权限

# ansible ceph -a 'chmod +r /etc/ceph/ceph.client.admin.keyring'

3.创建ceph osd角色(osd部署)

新版ceph-deploy直接使用create

相当于prepare,activate,osd create --bluestore

ceph-deploy osd create --data /dev/vdb ceph-host-01

ceph-deploy osd create --data /dev/vdb ceph-host-02

ceph-deploy osd create --data /dev/vdb ceph-host-03

ceph-deploy osd create --data /dev/vdb ceph-host-04

4.创建mgr角色

自从ceph 12开始，manager是必须的。应该为每个运行monitor的机器添加一个mgr，否则集群处于WARN状态。

[root@ceph-host-01 ceph-cluster]# ceph-deploy mgr create ceph-host-01 ceph-host-02 ceph-host-03

5.查看集群健康状态

[root@ceph-host-03 ~]# ceph health

HEALTH_OK

[root@ceph-host-03 ~]# ceph -s

cluster:

id: 02e63c58-5200-45c9-b592-07624f4893a5

health: HEALTH_OK

services:

mon: 3 daemons, quorum ceph-host-01,ceph-host-02,ceph-host-03 (age 59m)

mgr: ceph-host-01(active, since 4m), standbys: ceph-host-02, ceph-host-03

osd: 4 osds: 4 up (since 87m), 4 in (since 87m)

data:

pools: 0 pools, 0 pgs

objects: 0 objects, 0 B

usage: 5.0 GiB used, 90 GiB / 95 GiB avail

pgs:

再添加osd

ceph-deploy osd create --data /dev/vdc ceph-host-01

ceph-deploy osd create --data /dev/vdc ceph-host-02

ceph-deploy osd create --data /dev/vdc ceph-host-03

ceph-deploy osd create --data /dev/vdc ceph-host-04

查看状态

[root@ceph-host-01 ceph-cluster]# ceph osd tree

ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF

-1 0.18585 root default

-3 0.03717 host ceph-host-01

0 hdd 0.01859 osd.0 up 1.00000 1.00000

4 hdd 0.01859 osd.4 up 1.00000 1.00000

-5 0.03717 host ceph-host-02

1 hdd 0.01859 osd.1 up 1.00000 1.00000

5 hdd 0.01859 osd.5 up 1.00000 1.00000

-7 0.03717 host ceph-host-03

2 hdd 0.01859 osd.2 up 1.00000 1.00000

6 hdd 0.01859 osd.6 up 1.00000 1.00000

-9 0.03717 host ceph-host-04

3 hdd 0.01859 osd.3 up 1.00000 1.00000

7 hdd 0.01859 osd.7 up 1.00000 1.00000

查看挂载

[root@ceph-host-02 ~]# df -hT

Filesystem Type Size Used Avail Use% Mounted on

/dev/vda1 xfs 20G 1.5G 19G 8% /

devtmpfs devtmpfs 475M 0 475M 0% /dev

tmpfs tmpfs 496M 0 496M 0% /dev/shm

tmpfs tmpfs 496M 13M 483M 3% /run

tmpfs tmpfs 496M 0 496M 0% /sys/fs/cgroup

tmpfs tmpfs 100M 0 100M 0% /run/user/0

tmpfs tmpfs 496M 52K 496M 1% /var/lib/ceph/osd/ceph-1

tmpfs tmpfs 496M 52K 496M 1% /var/lib/ceph/osd/ceph-5

注：mon和mgr角色其实各一个节点就行，但是为了保障高可用，推荐多节点，示范添加命令如下

# ceph-deploy mon add ceph-host-03

# ceph-deploy mgr create ceph-host-03

关于环境的清理

$ ceph-deploy purge ceph-host-01 ceph-host-02 ceph-host-03 ceph-host-04 // 会移除所有与ceph相关的

$ ceph-deploy purgedata ceph-host-01 ceph-host-02 ceph-host-03 ceph-host-04

$ ceph-deploy forgetkeys

关于报错：

health问题解决

health: HEALTH_WARN

clock skew detected on mon.ceph-host-02, mon.ceph-host-03

这个是时间同步造成的

# ansible ceph -a 'yum install ntpdate -y'

# ansible ceph -a 'systemctl stop ntpdate'

# ansible ceph -a 'ntpdate time.windows.com'

参考： https://docs.ceph.com/docs/master/start/

https://www.jianshu.com/p/d9f2eb6ad2ba