Ceph存储池

Ceph存储池

前面已经搭建好了一个基础的Ceph集群，现在来看看Ceph的存储

1. Ceph的存储流程

当客户端需要存储一个文件到Ceph集群的时候，Ceph会把这个文件切分成多个对象，默认情况下每个对象4M，不足4M按原大小。切分之后每个对象都有一个对应的对象ID，Ceph拿到这个对象ID之后执行hash算法，去计算出这个对象应该写入到哪个PG(Placement Group)

PG是一些对象的集合，这些对象组成一个group，放在某些OSD上（place），组合起来就是Placement Group。将objects以PG为单位进行管理，有以下好处：

集群中的PG数目经过规划因为严格可控，使得基于PG可以精准控制单个OSD乃至整个节点的资源消耗，如CPU、内存、网络带宽等

因为集群中的PG数目远小于objects数目，并且PG数目和每个PG的身份相对固定，以PG为单位进行数据备份策略和数据同步、迁移等，相较于直接以对象为单位而言，难度更小且更加灵活

1. 数据写入

为了保证集群里存储的数据不丢失，Ceph采用了多副本机制，也就是将一个PG复制到多个osd节点上，当存储数据时，主osd收到写入指令后，将数据写入，并向其他的备osd(这里的数量取决于你设置的副本数)发起数据写入指令

强一致性会导致数据写入有较大的延迟，因此ceph进行了优化，将数据的写入分为2步执行

第一次当所有数据都写入osd节点的缓存后，向client发送一次确认，client就认为数据写入完成，继续后面的操作
第二次当所有数据都从缓存写入到磁盘后，再向client发送一次确认，client就会认为数据彻底写入，从而根据需要删除对应的本队数据

2. 数据读取

如果是读取数据呢？是怎么读的？在哪个osd读？

ceph读取数据的话永远都是从主osd节点上读取，不会从其他备osd节点读。

2. 资源池的配置

2.1 资源池创建

创建资源池的命令是

ceph osd pool create poolname [pg_num:int] [pgp_num:int] [replicated|erasure] [earsure_code_profile]
- poolname ：资源池名称，必选
- pg_num:int：PG数量，现在可以不选
- pgp_num:int：下面单独解释什么是pgp,也可以不选
- replicated|erasure：资源池类型，replicated为副本池，另一个则为纠删码池
- earsure_code_profile：纠删码配置模板，用于设置数据块和纠删码数量，当资源池类型为纠删码时，此选项为必选
- 如果创建资源池仅仅指定了资源池名称，那么其他参数系统会自动补齐，默认资源池类型为副本池

[root@ceph01 ~]# ceph osd pool create test_pool

pool 'test_pool' created

pgp是什么（Placement Group for Placement purpose）

我们现在都知道pg是什么，用比较容易理解的话来说就相当于Linux上的目录，目录下面会存放文件嘛，只不过pg存放的是对象，那如果pg数量太少，对象数量太多，我们是不是应该创建更多的pg出来？对。就是应该创建更多的pg，但是并不是直接创建，而是当任何池的pg_num增加时，此池的每个PG都将一分为二，但它们都保持映射到其父OSD。直到这个时候，Ceph才开始重新平衡。现在，当你增加同一个池的pgp_num值时，PG开始从父级迁移到其他OSD，并开始群集重新平衡。这就是PGP发挥重要作用的原因。

简单来说，如果只是pg的数量发生变化的话，那么这个osd上的pg会发生裂变由原来的一个一分为二，但是数据依旧保存在这个osd上，但是如果修改了pgp的数量，那么此时会开始发生迁移，之前发生裂变的pg可能会被重新调度到其他的osd上

2.2 绑定池类型

当我们的存储池被创建出来之后，我们需要指定他的类型，不建议复用

[root@ceph01 ~]# ceph osd pool application enable test_pool rbd

enabled application 'rbd' on pool 'test_pool'

[root@ceph01 ~]# ceph osd pool create test02

pool 'test02' created

[root@ceph01 ~]# ceph osd pool application enable test02 rgw

enabled application 'rgw' on pool 'test02'[root@ceph01 ~]# ceph osd pool application enable test03 cephfs

enabled application 'cephfs' on pool 'test03'

这时候我们就有3个存储池，绑定的类型分别是 rbd,rgw,cephfs

关闭

我们刚刚是使用enable绑定的类型，那么同样可以使用disable去关闭掉

[root@ceph01 ~]# ceph osd pool application disable test03 cephfs

Error EPERM: Are you SURE? Disabling an application within a pool might result in loss of application functionality; pass --yes-i-really-mean-it to proceed anyway

这个时候他会报错，目的是让你确认，你得加上 --yes-i-really-mean-it这个才可以删除

[root@ceph01 ~]# ceph osd pool application disable test03 cephfs --yes-i-really-mean-it

disable application 'cephfs' on pool 'test03'

3. 对象的管理

我们创建了资源池，也绑定了类型，那么现在可以使用rados来操作ceph集群了

3.1 上传对象

[root@ceph01 ~]# rados -p test03 put test-obj /etc/hosts

-p 是指定资源池
put是操作
test-obj 是对象的id，自己指定
/etc/hosts 是需要上传的文件
整条命令就是说将本地的/etc/hosts文件上传到test03，对象的id是test-obj

3.2 查看对象

[root@ceph01 ~]# rados -p test03 put test-obj /etc/hosts

[root@ceph01 ~]# rados -p test03 ls

test-obj

我们使用ls就可以看到我们刚刚上传的文件了

3.3 下载对象

[root@ceph01 ~]# rados -p test03 get test-obj ./hosts

[root@ceph01 ~]# cat hosts

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4 ceph01

::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.101.10 ceph01

192.168.101.20 ceph02

192.168.101.30 ceph03

3.4 删除对象

[root@ceph01 ~]# rados -p test03 rm test-obj

[root@ceph01 ~]# rados -p test03 ls

3.5 查询对象所在pg

# 重新上传一个对象

[root@ceph01 ~]# rados -p test03 put test-obj /etc/hosts

[root@ceph01 ~]# ceph osd map test03 test-obj

osdmap e93 pool 'test03' (4) object 'test-obj' -> pg 4.d6b75f59 (4.19) -> up ([7,2,5], p7) acting ([7,2,5], p7)

我们可以看到这个对象位于 7,2,5这三个pg上，主osd是7

3.6 限制资源池配额

限制资源池有2种，一种是限制最大对象数，一种是限制最大字节数

限制资源有一点非常不友好，就是你到达了最大数量的限制之后你再去上传，他不会报错，会一直卡在那

# 设置最大字节为5M

[root@ceph01 ~]# ceph osd pool set-quota test03 max_bytes 5M

set-quota max_bytes = 5242880 for pool test03

取消配置只需要设置成0就可以了

[root@ceph01 ~]# ceph osd pool set-quota test03 max_bytes 0

3.7 测试配额

# 创建一个4M的文件

[root@ceph01 ~]# dd if=/dev/zero of=./4M count=1 bs=4M

1+0 records in

1+0 records out

4194304 bytes (4.2 MB, 4.0 MiB) copied, 0.00513982 s, 816 MB/s

# 上传文件

[root@ceph01 ~]# rados -p test03 put 4M ./4M

[root@ceph01 ~]# rados -p test03 ls

test-obj

4M

[root@ceph01 ~]# ceph osd pool  get-quota test03

quotas for pool 'test03':

  max objects: N/A

  max bytes  : 5 MiB  (current num bytes: 4194535 bytes)

[root@ceph01 ~]# rados -p test03 put test_put ./4M

[root@ceph01 ~]# ceph osd pool  get-quota test03

quotas for pool 'test03':

  max objects: N/A

  max bytes  : 5 MiB  (current num bytes: 8388839 bytes)

是不是有疑问了，不是最大限制5M吗，这都上传了8M了啊

是这样的，在你的空间还没有满之前，哪怕就剩下1K了，这时候你上传多大的文件都可以传进去，但是当他已经超过之后，你就传不进去了。我们再来传一个

[root@ceph01 ~]# rados -p test03 put test_put02 ./4M

你会发现他一直卡在这，对吧。他不会报错，他也不会告诉你超过配额了。

配额超过之后他是不允许你执行任何上传，下载操作的。注意。下载也是不行的，你只能执行get这是没有问题的

3. 存储池快照

ceph的快照功能有点鸡肋，原因是他并不跟虚拟机的快照功能一样，还原快照就直接回到当时的那个场景，ceph的快照是这样的。

首先你对现在的存储池打一个快照，然后你想恢复的话，需要从某个快照里面去将某个文件get到本地，然后再从本地上传到存储池内

# 打快照

[root@ceph01 ~]# rados -p test03 ls

test-obj

[root@ceph01 ~]# rados -p test03 mksnap snap01

created pool test03 snap snap01

[root@ceph01 ~]# rados -p test03 lssnap

1	snap01	2024.05.25 10:30:05

1 snaps

# 删除存储池的文件

[root@ceph01 ~]# rados -p test03 rm test-obj

# 查看文件，这时候他还会显示，应该是个bug，但是这个文件已经是被删掉了，不信的话可以get一下

[root@ceph01 ~]# rados -p test03 ls

test-obj

# 将文件还原

[root@ceph01 ~]# rados -p test03 -s snap01 get test-obj ./test-obj

selected snap 1 'snap01'

[root@ceph01 ~]# ls test-obj

test-obj

# 上传到存储池内

[root@ceph01 ~]# rados -p test03 put test-obj ./test-obj

[root@ceph01 ~]# rados -p test03 ls

test-obj

怎么样，现在是不是觉得非常的鸡肋。如果要还原的文件过多，那么就需要一个个下载到本地然后重新上传回去。非常之麻烦

4. 修改池属性

当池被创建出来之后，我们需要修改他的一些属性，比如修改副本数，修改pg数等等

4.1 列出属性

[root@ceph01 ~]# ceph osd pool get test03 all

size: 3

min_size: 2

pg_num: 32

pgp_num: 32

crush_rule: replicated_rule

hashpspool: true

nodelete: false

nopgchange: false

nosizechange: false

write_fadvise_dontneed: false

noscrub: false

nodeep-scrub: false

use_gmt_hitset: 1

fast_read: 0

pg_autoscale_mode: on

bulk: false

4.2 调整副本数为4

[root@ceph01 ~]# ceph osd pool set test03 size 4

set pool 4 size to 4

[root@ceph01 ~]# ceph osd pool get test03 size

size: 4

4.3 禁止删除存储池

[root@ceph01 ~]# ceph osd pool set test03 nodelete true

set pool 4 nodelete to true

nodelete 就是这个存储池不允许被删除

我们来删删看

[root@ceph01 ~]# ceph osd pool rm test03

Error EPERM: WARNING: this will *PERMANENTLY DESTROY* all data stored in pool test03.  If you are *ABSOLUTELY CERTAIN* that is what you want, pass the pool name *twice*, followed by --yes-i-really-really-mean-it.

# 他报错说要删除存储池的话需要写2次存储池的名字以及加上--yes-i-really-really-mean-it

[root@ceph01 ~]# ceph osd pool rm test03  test03 --yes-i-really-really-mean-it

Error EPERM: pool deletion is disabled; you must first set the mon_allow_pool_delete config option to true before you can destroy a pool

现在他依然报错，因为我们刚刚设置了不允许被删除，现在我们取消

[root@ceph01 ~]# ceph osd pool set test03 nodelete false

set pool 4 nodelete to false

# 再来删除

[root@ceph01 ~]# ceph osd pool rm test03  test03 --yes-i-really-really-mean-it

Error EPERM: pool deletion is disabled; you must first set the mon_allow_pool_delete config option to true before you can destroy a pool

可以看到他一样不让删除，他的意思是要删除的话必须将 mon_allow_pool_delete设置为true，默认为false

# 修改这个值

[root@ceph01 ~]# ceph config set mon mon_allow_pool_delete true

# 删除池

[root@ceph01 ~]# ceph osd pool rm test03 test03 --yes-i-really-really-mean-it

pool 'test03' removed

5. 纠删码池管理

纠删码池在ceph的局限性是只能做对象网关，但是他不会保存多个副本，空间利用率大大提升

5.1 原理

当上传某个文件的时候，他会将文件拆成多个数据块，然后存放的时候会再补充若干个校验块，他的冗余能力为纠删码的块数。假如我们现在有一个3M的文件，被拆分成3个1M的数据块，然后还有2个校验块，如果挂掉了2个数据块，正好可以通过还剩下的1个数据块+2个校验块来还原数据。如果3个数据块都坏掉了那就还原不了

5.2 创建纠删码池

[root@ceph01 ~]# ceph osd pool create test04 erasure

pool 'test04' created

之前不是说创建纠删码就必须给他指定一个配置文件吗？我没指定怎么也创建出来了呢？我们来看看

[root@ceph01 ~]# ceph osd pool ls detail |grep erasure

pool 5 'test04' erasure profile default size 4 min_size 3 crush_rule 1 object_hash rjenkins pg_num 32 pgp_num 32 autoscale_mode on last_change 110 flags hashpspool stripe_width 8192

这里我们可以看到他使用的默认的配置文件，查看默认配置文件

# 查看有哪些配置文件

[root@ceph01 ~]# ceph osd erasure-code-profile ls

default

# 查看配置文件的详细配置

[root@ceph01 ~]# ceph osd erasure-code-profile get default

k=2

m=2

plugin=jerasure

technique=reed_sol_van

5.2.1 创建自己的配置文件

[root@ceph01 ~]# ceph osd erasure-code-profile set test_profile crush-failure-domain=osd k=3 m=2

[root@ceph01 ~]# ceph osd erasure-code-profile ls

default

test_profile

k：就是数据块的个数
m：就是校验块的数量
crush-failure-domain：故障域，意思就是要求故障域分配在不同的osd上，不需要分配在不同的主机上，为什么不是host，因为分配在不同的主机上的话，需要k+m台主机，但是我们现在只有3台主机，所以需要改

5.2.2 使用自己的配置文件创建池

[root@ceph01 ~]# ceph osd pool create test05 erasure test_profile

pool 'test05' created

[root@ceph01 ~]# ceph osd pool get test05 all

size: 5

min_size: 4

pg_num: 32

pgp_num: 32

crush_rule: test05

hashpspool: true

allow_ec_overwrites: false

nodelete: false

nopgchange: false

nosizechange: false

write_fadvise_dontneed: false

noscrub: false

nodeep-scrub: false

use_gmt_hitset: 1

erasure_code_profile: test_profile

fast_read: 0

pg_autoscale_mode: on

bulk: false

Ceph存储池管理的更多相关文章

ceph存储池基本管理
一,设置默认存储池的pg或pgp的值(推荐100左右),在ceph.conf文件里增加: osd pool default pg num = osd pool default pgp num = 二, ...
ceph 009 管理定义crushmap 故障域
管理和自定义crushmap 定义pg到osd的映射关系通过crush算法使三副本映射到理想的主机或者机架更改故障域提高可靠性 pg到osd映射由crush实现下载时需要将对象从osd搜索到,组 ...
ceph 池管理
存储池的概念:比如有10个1T的硬盘,作为一个集群,那就可以在这个集群里划分几个池,给不同的组件使用问题描述: 删除pool的时候提示下面的错误: ceph osd pool delete test ...
004 ceph存储池
介绍:前面已经使用deploy和ansble部署了ceph集群,现在对集群的池进行简单介绍和简单操作一.部分概念池是ceph存储集群的逻辑分区,用于存储对象对象存储到池中时,使用CRUSH规则将 ...
[故障]ceph存储池权限修改错误，导致存储池的业务hang住
描述: 记录一次重大事故:根据IaaS资源业务要求,需要增加某些功能,所以要修改部署代码.修改后重推部署代码,检查发现没有什么异常. 但是一段时间后就收到用户的报障反馈,接连一个电话.2个电话.3个电 ...
ceph 存储池PG查看和PG存放OSD位置
1. 查看PG (ceph-mon)[root@controller /]# ceph pg stat 512 pgs: 512 active+clean; 0 bytes data, 1936 MB ...
ceph pool 管理
创建池 [root@node1 ~]# ceph osd pool create monitor pool 'monitor' created 查看池 [root@node1 ~]# ceph osd ...
005 Ceph配置文件及用户管理
一.Ceph的配置文件 Ceph 配置文件可用于配置存储集群内的所有守护进程.或者某一类型的所有守护进程.要配置一系列守护进程,这些配置必须位于能收到配置的段落之下.默认情况下,无论是ceph的服务端 ...
Ceph 管理和使用
ceph 管理上次介绍了Ceph集群架构并且搭建了ceph集群,本节介绍ceph用户认证流程和挂载.cephFS.ceph RBD以及ceph mds高可用 1. ceph 授权流程和用户权限管理 ...
ceph日常运维管理
点击关注上方"开源Linux", 后台回复"读书",有我为您特别筛选书籍资料~ 相关阅读: ceph分布式存储简介常见问题 nearfull osd(s) o ...

随机推荐

Python 集合（Sets）1
集合集合用于在单个变量中存储多个项.集合是 Python 中的 4 种内置数据类型之一,用于存储数据集合,其他 3 种是列表(List).元组(Tuple)和字典(Dictionary),它们都具有 ...
Yolov5代码详解——detect.py
首先执行扩展包的导入: import argparse import os import platform import sys from pathlib import Path import t ...
Git 12 IDEA上传本地项目到远程
这里以上传 Spring 开源项目到 Gitee 为例: 1.点击 Create Git Repository 2.选择项目目录 3.添加到缓存库 4.提交到本地库 5.复制远程库地址 6.推送到远程 ...
Redis之父萨尔瓦多·桑菲利波又名安蒂雷斯
萨尔瓦多·桑菲利波又名安蒂雷斯个人博客连接嗨,我是萨尔瓦多·桑菲利波,也被称为安提雷斯, 一位居住在卡塔尼亚的意大利计算机程序员. 我于7年1977月2020日出生在坎波贝洛迪利卡塔. 2022 ...
LeetCode - 最接近的三数之和
最接近的三数之和你一个长度为 n 的整数数组 nums 和一个目标值 target.请你从 nums 中选出三个整数,使它们的和与 target 最接近. 返回这三个数的和. 假定每组输入只存在恰 ...
Spark SQL 抽样函数 ——TABLESAMPLE 的坑点
最近需要实现一段 Spark SQL 逻辑,对数据集进行抽样指定的行数. 由于数据集较大,刚开始的逻辑是,取窗口函数随机排序后 row_number 的前 n 行.但运行速度较慢,所以想起了 TABL ...
对话 Dubbo 唤醒者北纬：3.0 将至，阿里核心电商业务也在用 Dubbo
简介: 如今,Dubbo 已经毕业一年,越来越多开发者开始询问 Dubbo 3.0 到底有哪些变化,阿里巴巴内部到底用不用 Dubbo,这是不是一个 KPI 开源项目以及 Dubbo 和 Spring ...
如何基于MaxCompute快速打通数据仓库和数据湖的湖仓一体实践
简介: MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速.全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户 ...
[FE] Quasar BEX 不同位置类型的 debug 调试方式
科普:[FE] Quasar BEX 所有位置类型 types 不同类型调试,查看错误在不同的位置,如下图中的 4 个位置. Refer:https://quasar.dev/quasar-cli/d ...
[公链观点] BTC 1.0, ETH 2.0, EOS 3.0, Dapp, WASM, DOT, ADA, VNT
Dapp 发展史 WASM 兼容Web的编码方式 Cardano(ADA 艾达币) 权益挖矿 VNT chain 解决联盟链和公链的跨链基础项目跨链项目 Polkadot (DOT 波卡币) 是不是 ...

Ceph存储池管理