转载自：https://mp.weixin.qq.com/s/CdLioTzU4oWI688lqYKXUQ

1 环境准备

1.1 基础环境

3台配置一致的虚拟机
虚拟机配置：4c 8g
虚拟机操作系统：centos7
硬盘：vda：40G vdb：20G
Kubernete 版本：1.20.0
Docker版本：20.10.7

默认k8s 已安装完成，采用kubeadm 容器化安装

1.2 所安装rook/ceph版本：

ceph：v15.2.11

rook：1.6.3

1.3 前提

正常运行的多节点k8s集群，两个子节点及以上
rook的版本大于1.3，无法使用目录创建集群，要使用单独的裸盘进行创建，也就是创建一个新的磁盘，挂载到宿主机，不进行格式化，直接使用即可。检查步骤：

lsblk -f

NAME   FSTYPE LABEL UUID                                 MOUNTPOINT

vda

└─vda1 xfs          6f15c206-f516-4ee8-a4b7-89ad880647db /

vdb

FSTYPE为空的磁盘为可用磁盘，该磁盘需要清除数据（不能格式化）。
做这个实验需要高配置，每个子节点配置不能低于2核4G，主节点不低于4核8G

2 搭建流程

2.1Rook是什么

Rook本身并不是一个分布式存储系统，而是利用 Kubernetes 平台的强大功能，通过 Kubernetes Operator 为每个存储提供商提供服务。它是一个存储“编排器”，可以使用不同的后端（例如 Ceph、EdgeFS 等）执行繁重的管理存储工作，从而抽象出很多复杂性。
Rook 将分布式存储系统转变为自我管理、自我扩展、自我修复的存储服务。它自动执行存储管理员的任务：部署、引导、配置、供应、扩展、升级、迁移、灾难恢复、监控和资源管理
Rook 编排了多个存储解决方案，每个解决方案都有一个专门的 Kubernetes Operator 来实现自动化管理。目前支持Ceph、Cassandra、NFS。
目前主流使用的后端是Ceph ，Ceph 提供的不仅仅是块存储；它还提供与 S3/Swift 兼容的对象存储和分布式文件系统。Ceph 可以将一个卷的数据分布在多个磁盘上，因此可以让一个卷实际使用比单个磁盘更多的磁盘空间，这很方便。当向集群添加更多磁盘时，它会自动在磁盘之间重新平衡/重新分配数据。

2.2 ceph-rook 与k8s集成方式

Rook 是一个开源的cloud-native storage编排, 提供平台和框架；为各种存储解决方案提供平台、框架和支持，以便与云原生环境本地集成。
Rook 将存储软件转变为自我管理、自我扩展和自我修复的存储服务，它通过自动化部署、引导、配置、置备、扩展、升级、迁移、灾难恢复、监控和资源管理来实现此目的。
Rook 使用底层云本机容器管理、调度和编排平台提供的工具来实现它自身的功能。
Rook 目前支持Ceph、NFS、Minio Object Store和CockroachDB。
Rook使用Kubernetes原语使Ceph存储系统能够在Kubernetes上运行

3 安装部署

3.1 安装前准备

#确认安装lvm2

yum install lvm2 -y

#启用rbd模块

modprobe rbd

cat > /etc/rc.sysinit << EOF

#!/bin/bash

for file in /etc/sysconfig/modules/*.modules

do

  [ -x \$file ] && \$file

done

EOF

cat > /etc/sysconfig/modules/rbd.modules << EOF

modprobe rbd

EOF

chmod 755 /etc/sysconfig/modules/rbd.modules

lsmod |grep rbd

3.2 下载Rook安装文件

git clone --single-branch --branch v1.6.3 https://github.com/rook/rook.git

更改配置

cd rook/cluster/examples/kubernetes/ceph

修改Rook CSI镜像地址，原本的地址可能是gcr的镜像，但是gcr的镜像无法被国内访问，所以需要同步gcr的镜像到阿里云镜像仓库，本文档已经为大家完成同步，可以直接修改如下：

vim operator.yaml

将

改为：

ROOK_CSI_REGISTRAR_IMAGE: "registry.cn-beijing.aliyuncs.com/dotbalo/csi-node-driver-registrar:v2.0.1"

ROOK_CSI_RESIZER_IMAGE: "registry.cn-beijing.aliyuncs.com/dotbalo/csi-resizer:v1.0.1"

ROOK_CSI_PROVISIONER_IMAGE: "registry.cn-beijing.aliyuncs.com/dotbalo/csi-provisioner:v2.0.4"

ROOK_CSI_SNAPSHOTTER_IMAGE: "registry.cn-beijing.aliyuncs.com/dotbalo/csi-snapshotter:v4.0.0"

ROOK_CSI_ATTACHER_IMAGE: "registry.cn-beijing.aliyuncs.com/dotbalo/csi-attacher:v3.0.2"

还是operator文件，新版本rook默认关闭了自动发现容器的部署，可以找到ROOK_ENABLE_DISCOVERY_DAEMON改成true即可：

3.4 部署ROOK

cd cluster/examples/kubernetes/ceph

kubectl create -f crds.yaml -f common.yaml -f operator.yaml

等待容器启动，只有都running才能进行下一步

[root@k8s-master01 ceph]# kubectl -n rook-ceph get pod

NAME                                                     READY   STATUS      RESTARTS   AGE

rook-ceph-operator-675f59664d-b9nch                      1/1     Running     0          32m

rook-discover-4m68r                                      1/1     Running     0          40m

rook-discover-chscc                                      1/1     Running     0          40m

rook-discover-mmk69                                      1/1     Running     0          40m

3.5 创建ceph集群

kubectl create -f cluster.yaml

创建完成后，可以查看pod的状态：

[root@k8s-master01 ceph]# kubectl -n rook-ceph get pod

NAME                                                     READY   STATUS      RESTARTS   AGE

csi-cephfsplugin-8d6zn                                   3/3     Running     0          39m

csi-cephfsplugin-dr6wd                                   3/3     Running     0          39m

csi-cephfsplugin-gblpg                                   3/3     Running     0          39m

csi-cephfsplugin-provisioner-846ffc6cb4-qjv7s            6/6     Running     0          39m

csi-cephfsplugin-provisioner-846ffc6cb4-wbjzg            6/6     Running     0          39m

csi-rbdplugin-6bd9t                                      3/3     Running     0          39m

csi-rbdplugin-9b6gt                                      3/3     Running     0          39m

csi-rbdplugin-9vtpp                                      3/3     Running     0          39m

csi-rbdplugin-provisioner-75fd5c779f-9989z               6/6     Running     0          39m

csi-rbdplugin-provisioner-75fd5c779f-zx49t               6/6     Running     0          39m

rook-ceph-crashcollector-k8s-master01-75bb6c6dd9-lnncg   1/1     Running     0          38m

rook-ceph-crashcollector-k8s-node-90-84b555c8c8-5vt72    1/1     Running     0          38m

rook-ceph-crashcollector-k8s-node-94-798667dd4b-dzvbw    1/1     Running     0          31m

rook-ceph-mgr-a-86d4459f5b-8bk49                         1/1     Running     0          38m

rook-ceph-mon-a-847d986b98-tff45                         1/1     Running     0          39m

rook-ceph-mon-b-566894d545-nbw2t                         1/1     Running     0          39m

rook-ceph-mon-c-58c5789c6-xz5l7                          1/1     Running     0          38m

rook-ceph-operator-675f59664d-b9nch                      1/1     Running     0          32m

rook-ceph-osd-0-76db9d477d-dz9kf                         1/1     Running     0          38m

rook-ceph-osd-1-768487dbc8-g7zq9                         1/1     Running     0          31m

rook-ceph-osd-2-5d9f8d6fb-bfwtk                          1/1     Running     0          31m

rook-ceph-osd-prepare-k8s-master01-4b4mp                 0/1     Completed   0          31m

rook-ceph-osd-prepare-k8s-node-90-7jg4n                  0/1     Completed   0          31m

rook-ceph-osd-prepare-k8s-node-94-4mb7g                  0/1     Completed   0          31m

rook-discover-4m68r                                      1/1     Running     0          40m

rook-discover-chscc                                      1/1     Running     0          40m

rook-discover-mmk69                                      1/1     Running     0          40m

其中osd-0、osd-1、osd-2容器必须是存在且正常的，如果上述pod均正常运行成功，则视为集群安装成功。

3.6 安装ceph 客户端工具

这个文件的路径还是在ceph文件夹下

kubectl  create -f toolbox.yaml -n rook-ceph

待容器Running后，即可执行相关命令：

[root@k8s-master01 ~]# kubectl -n rook-ceph exec -it deploy/rook-ceph-tools -- bash

[root@rook-ceph-tools-fc5f9586c-m2wf5 /]# ceph status

  cluster:

    id:     9016340d-7f90-4634-9877-aadc927c4e81

    health: HEALTH_WARN

            mons are allowing insecure global_id reclaim

            clock skew detected on mon.b

  services:

    mon: 3 daemons, quorum a,b,c (age 3m)

    mgr: a(active, since 44m)

    osd: 3 osds: 3 up (since 38m), 3 in (since 38m)

  data:

    pools:   1 pools, 1 pgs

    objects: 0 objects, 0 B

    usage:   3.0 GiB used, 57 GiB / 60 GiB avail

    pgs:     1 active+clean

常用命令：

ceph status

ceph osd status

ceph df

rados df

3.7 配置ceph dashboard

默认的ceph 已经安装的ceph-dashboard，但是其svc地址为service clusterIP，并不能被外部访问

kubectl apply -f dashboard-external-https.yaml

创建NodePort类型就可以被外部访问了

[root@k8s-master01 ~]# kubectl get svc -n rook-ceph|grep dashboard

rook-ceph-mgr-dashboard                  ClusterIP   192.168.204.219   <none>        8443/TCP            49m

rook-ceph-mgr-dashboard-external-https   NodePort    192.168.34.227    <none>        8443:32529/TCP      49m

浏览器访问(master01-ip换成自己的集群ip)：

https://master01-ip:32529/#/login?returnUrl=%2Fdashboard

用户名默认是admin，至于密码可以通过以下代码获取：

kubectl -n rook-ceph get secret rook-ceph-dashboard-password -o jsonpath="{['data']['password']}"|base64 --decode && echo

4 删除集群并清除数据

4.1 删除Cephcluster CRD

kubectl -n rook-ceph delete cephcluster rook-ceph

确认上一步删除之后，查询一下

kubectl -n rook-ceph get cephcluster

4.2 删除Operator 和相关的资源

kubectl delete -f operator.yaml

kubectl delete -f common.yaml

kubectl delete -f crds.yaml

4.3 删除主机上的数据

rook创建cluster的时候会把部分数据写在本机的/var/lib/rook(dataDirHostPath指定的目录)中，如果不删除会影响下次集群部署，rook据说下个版本会增加k8s 本地存储调用的功能，就不会直接存在硬盘上了

rm -rf /var/lib/rook

4.4 擦除硬盘上的数据

创建osd时被写入了数据，需要擦除，否则无法再次创建ceph集群，脚本中有各种硬盘的擦除命令，不需要全部执行成功，根据当前机器的硬盘情况确定。

vim clean-ceph.sh

#!/usr/bin/env bash

DISK="/dev/vdb"

sgdisk --zap-all $DISK

dd if=/dev/zero of="$DISK" bs=1M count=100 oflag=direct,dsync

blkdiscard $DISK

ls /dev/mapper/ceph-* | xargs -I% -- dmsetup remove %

rm -rf /dev/ceph-*

rm -rf /dev/mapper/ceph--*

5 FAQ

5.1 卸载删除ceph-rook，kubectl get ns ，rook-ceph 显示未Terminating，无法删除

NAMESPACE=rook-ceph

kubectl proxy &

kubectl get namespace $NAMESPACE -o json |jq '.spec = {"finalizers":[]}' >temp.json

curl -k -H "Content-Type: application/json" -X PUT --data-binary @temp.json 127.0.0.1:8001/api/v1/namespaces/$NAMESPACE/finalize

5.2 卸载osd 或者卸载集群另外一个后遗症，rook-ceph 名称空间删除了，但是 cephcluster无法删除

#查看名称空间，已经删除

[root@k8s-master01 ~]# kubectl get ns

NAME              STATUS   AGE

default           Active   22h

kube-node-lease   Active   22h

kube-public       Active   22h

kube-system       Active   22h

#查看集群依然存在

[root@k8s-master01 ~]# kubectl -n rook-ceph get cephcluster

NAME        DATADIRHOSTPATH MONCOUNT AGE PHASE       MESSAGE                HEALTH

rook-ceph   /var/lib/rook   3        20h Progressing Configuring Ceph Mons

[root@k8s-master01 ~]# kubectl api-resources --namespaced=true -o name|xargs -n 1 kubectl get --show-kind --ignore-not-found -n rook-ceph

Error from server (MethodNotAllowed): the server does not allow this method on the requested resource

NAME                         TYPE                                  DATA   AGE

secret/default-token-lz6wh   kubernetes.io/service-account-token   3      8m34s

NAME                     SECRETS   AGE

serviceaccount/default   1         8m34s

Error from server (MethodNotAllowed): the server does not allow this method on the requested resource

NAME                                 DATADIRHOSTPATH   MONCOUNT   AGE   PHASE         MESSAGE                 HEALTH

cephcluster.ceph.rook.io/rook-ceph   /var/lib/rook     3          20h   Progressing   Configuring Ceph Mons   

#解决办法：

kubectl edit  cephcluster.ceph.rook.io -n rook-ceph

把finalizers的值删掉，cephcluster.ceph.rook.io便会自己删除

5.3 打开dashboard显示HEALTH_WARN警告

进入 ceph-tools 执行以下命令：

ceph config set mon auth_allow_insecure_global_id_reclaim false

其他常见警告解决链接：

https://docs.ceph.com/en/octopus/rados/operations/health-checks/

K8s 上的分布式存储集群搭建（Rook/ceph）的更多相关文章

ASP.NET Core on K8S深入学习（1）K8S基础知识与集群搭建
在上一个小系列文章<ASP.NET Core on K8S学习初探>中,通过在Windows上通过Docker for Windows搭建了一个单节点的K8S环境,并初步尝试将ASP.NE ...
k8s上安装elasticsearch集群
官方文档地址:https://www.elastic.co/guide/en/cloud-on-k8s/current/k8s-quickstart.html yaml文件地址:https://dow ...
K8S之集群搭建
转自声明 ASP.NET Core on K8S深入学习(1)K8S基础知识与集群搭建 1.K8S环境搭建的几种方式搭建K8S环境有几种常见的方式如下: (1)Minikube Minikube是一 ...
2-20 MySQL集群搭建实现高可用
MySQL集群概述和安装环境 MySQL Cluster是MySQL适合于分布式计算环境的高实用.高冗余版本.Cluster的汉语是"集群"的意思.它采用了NDB Cluster ...
.net core i上 K8S(一)集群搭建
1.前言以前搭建集群都是使用nginx反向代理,但现在我们有了更好的选择——K8S.我不打算一上来就讲K8S的知识点,因为知识点还是比较多,我打算先从搭建K8S集群讲起,我也是在搭建集群的过程中熟悉 ...
.Net Core2.1 秒杀项目一步步实现CI/CD(Centos7.2)系列一:k8s高可用集群搭建总结以及部署API到k8s
前言:本系列博客又更新了,是博主研究很长时间,亲自动手实践过后的心得,k8s集群是购买了5台阿里云服务器部署的,这个集群差不多搞了一周时间,关于k8s的知识点,我也是刚入门,这方面的知识建议参考博客园 ...
实现CI/CDk8s高可用集群搭建总结以及部署API到k8s
实现CI/CD(Centos7.2)系列二:k8s高可用集群搭建总结以及部署API到k8s 前言:本系列博客又更新了,是博主研究很长时间,亲自动手实践过后的心得,k8s集群是购买了5台阿里云服务器部署 ...
kubernetes（K8S）快速安装与配置集群搭建图文教程
kubernetes(K8S)快速安装与配置集群搭建图文教程作者: admin 分类: K8S 发布时间: 2018-09-16 12:20 Kubernetes是什么? 首先,它是一个全新的基于容 ...
K8S集群搭建
K8S集群搭建摘要是借鉴网上的几篇文章加上自己的理解整理得到的结果,去掉了一些文章中比较冗余的组件和操作,力争做到部署简单化. K8S组件说明 Kubernetes包含两种节点角色:master节 ...

随机推荐

js导入excel&导出excel
Excel导入 html代码 <button style={{ color: '#1890ff', fontSize: '14px', cursor: 'pointer' }} onClick= ...
模电Multisim仿真Rb变化对Q点和电压放大倍数的影响
一.目的研究Rb变化对Q点和Au的影响. 二.方法描述仿真电路如下所示.晶体管采用FMMT5179其参数BF=133,RB=5Ω. (1)分別测量Rb=3MΩ和3.2MΩ时得UCEQ和Au.由于信 ...
07 MySQL_事务
事务事务( transaction) 是数据库中执行同一业务多条SQL语句工作单元,事务可以保证多条SQL语句全部执行成功或全部执行失败和事务相关的SQL语句: 验证事务: 1. 创建表: cr ...
LNMP架构及DISCUZ论坛部署
1)(5分)服务器IP地址规划:client:12.0.0.12/24,网关服务器:ens36:12.0.0.1/24.ens33:172.16.10.1/24,Web1:172.16.10.10/2 ...
Sampler类定义
此是所有采样的基类,这样定义的好处是,我们可以分别测试每一个采样算法. 类定义: #pragma once #ifndef __SAMPLER_HEADER__ #define __SAMPLER_H ...
Maven 聚合工程
第一步: 创建Maven聚合工程: 父工程Maven工程的打包方式必须为pom 创建一个Maven工程修改父工程的pom.xml,设置打包方式为pom <?xml version=" ...
WTL_Freecell绿色版
WTL_Freecell绿色版-用户手册 1.程序特点和使用环境介绍 (1).版本信息 WTL_Freecell-Release05-v1.3-20190129 (WTL空当接龙绿色版v1.3),By ...
275. H 指数 II--Leetcode_暴力
来源:力扣(LeetCode) 链接:https://leetcode.cn/problems/h-index-ii 著作权归领扣网络所有.商业转载请联系官方授权,非商业转载请注明出处. 题目的大意是 ...
新一代分布式实时流处理引擎Flink入门实战之先导理论篇-上
@ 目录概述定义为什么使用Flink 应用行业和场景应用行业应用场景实时数仓演变 Flink VS Spark 架构系统架构术语无界和有界数据流式分析基础分层API 运行模式作 ...
jbd2的死锁分析
已经运行多年的jbd2,它还是死锁了背景:这个是在centos7的环境上复现的,内核版本为3.10.0-957.27.2.el7 下面列一下我们是怎么排查并解这个问题的. 一.故障现象 oppo云内 ...

K8s 上的分布式存储集群搭建（Rook/ceph）