Ceph 状态报警告 pool rbd has many more objects per pg than average (too few pgs?)

定位问题

[root@lab8106 ~]# ceph -s

    cluster fa7ec1a1-662a-4ba3-b478-7cb570482b62

     health HEALTH_WARN

            pool rbd has many more objects per pg than average (too few pgs?)

     monmap e1: 1 mons at {lab8106=192.168.8.106:6789/0}

            election epoch 30, quorum 0 lab8106

     osdmap e157: 2 osds: 2 up, 2 in

            flags sortbitwise

      pgmap v1023: 417 pgs, 13 pools, 18519 MB data, 15920 objects

            18668 MB used, 538 GB / 556 GB avail

                 417 active+clean

集群出现了这个警告，pool rbd has many more objects per pg than average (too few pgs?) 这个警告在hammer版本里面的提示是 pool rbd has too few pgs

这个地方查看集群详细信息：

[root@lab8106 ~]# ceph health detail

HEALTH_WARN pool rbd has many more objects per pg than average (too few pgs?); mon.lab8106 low disk space

pool rbd objects per pg (1912) is more than 50.3158 times cluster average (38)

看下集群的pool的对象状态

[root@lab8106 ~]# ceph df

GLOBAL:

    SIZE     AVAIL     RAW USED     %RAW USED

    556G      538G       18668M          3.28

POOLS:

    NAME       ID     USED       %USED     MAX AVAIL     OBJECTS

    rbd        6      16071M      2.82          536G       15296

    pool1      7        204M      0.04          536G          52

    pool2      8        184M      0.03          536G          47

    pool3      9        188M      0.03          536G          48

    pool4      10       192M      0.03          536G          49

    pool5      11       204M      0.04          536G          52

    pool6      12       148M      0.03          536G          38

    pool7      13       184M      0.03          536G          47

    pool8      14       200M      0.04          536G          51

    pool9      15       200M      0.04          536G          51

    pool10     16       248M      0.04          536G          63

    pool11     17       232M      0.04          536G          59

    pool12     18       264M      0.05          536G          67

查看存储池的pg个数

[root@lab8106 ~]# ceph osd dump|grep pool

pool 6 'rbd' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 8 pgp_num 8 last_change 132 flags hashpspool stripe_width 0

pool 7 'pool1' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 134 flags hashpspool stripe_width 0

pool 8 'pool2' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 136 flags hashpspool stripe_width 0

pool 9 'pool3' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 138 flags hashpspool stripe_width 0

pool 10 'pool4' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 140 flags hashpspool stripe_width 0

pool 11 'pool5' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 142 flags hashpspool stripe_width 0

pool 12 'pool6' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 144 flags hashpspool stripe_width 0

pool 13 'pool7' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 146 flags hashpspool stripe_width 0

pool 14 'pool8' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 148 flags hashpspool stripe_width 0

pool 15 'pool9' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 150 flags hashpspool stripe_width 0

pool 16 'pool10' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 100 pgp_num 100 last_change 152 flags hashpspool stripe_width 0

pool 17 'pool11' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 100 pgp_num 100 last_change 154 flags hashpspool stripe_width 0

pool 18 'pool12' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 200 pgp_num 200 last_change 156 flags hashpspool stripe_width 0

我们看下这个是怎么得到的

pool rbd objects per pg (1912) is more than 50.3158 times cluster average (38)

rbd objects_per_pg = 15296 / 8 = 1912

objects_per_pg = 15920 /417 ≈ 38

50.3158 = rbd objects_per_pg / objects_per_pg = 1912 / 38

也就是出现其他pool的对象太少，而这个pg少，对象多，就会提示这个了，我们看下代码里面的判断

https://github.com/ceph/ceph/blob/master/src/mon/PGMonitor.cc

 int average_objects_per_pg = pg_map.pg_sum.stats.sum.num_objects / pg_map.pg_stat.size();

      if (average_objects_per_pg > 0 &&

          pg_map.pg_sum.stats.sum.num_objects >= g_conf->mon_pg_warn_min_objects &&

          p->second.stats.sum.num_objects >= g_conf->mon_pg_warn_min_pool_objects) {

	int objects_per_pg = p->second.stats.sum.num_objects / pi->get_pg_num();

	float ratio = (float)objects_per_pg / (float)average_objects_per_pg;

	if (g_conf->mon_pg_warn_max_object_skew > 0 &&

	    ratio > g_conf->mon_pg_warn_max_object_skew) {

	  ostringstream ss;

	  ss << "pool " << name << " has many more objects per pg than average (too few pgs?)";

	  summary.push_back(make_pair(HEALTH_WARN, ss.str()));

	  if (detail) {

	    ostringstream ss;

	    ss << "pool " << name << " objects per pg ("

	       << objects_per_pg << ") is more than " << ratio << " times cluster average ("

	       << average_objects_per_pg << ")";

	    detail->push_back(make_pair(HEALTH_WARN, ss.str()));

	  }

主要下面的几个限制条件

mon_pg_warn_min_objects = 10000 //总的对象超过10000

mon_pg_warn_min_pool_objects = 1000 //存储池对象超过1000

mon_pg_warn_max_object_skew = 10 //就是上面的存储池的平均对象与所有pg的平均值的倍数关系

解决问题

有三个方法解决这个警告的提示：

删除无用的存储池

如果集群中有一些不用的存储池，并且相对的pg数目还比较高，那么可以删除一些这样的存储池，从而降低mon_pg_warn_max_object_skew这个值，警告就会没有了
增加提示的pool的pg数目

有可能的情况就是，这个存储池的pg数目从一开始就不够，增加pg和pgp数目，同样降低了mon_pg_warn_max_object_skew这个值了
增加mon_pg_warn_max_object_skew的参数值

如果集群里面已经有足够多的pg了，再增加pg会不稳定，如果想去掉这个警告，就可以增加这个参数值，默认为10

总结

这个警告是比较的是存储池中的对象数目与整个集群的pg的平均对象数目的偏差，如果偏差太大就会发出警告

检查的步骤：

ceph health detail

ceph df

ceph osd dump | grep pool

mon_pg_warn_max_object_skew = 10.0

((objects/pg_num) in the affected pool)/(objects/pg_num in the entire system) >= 10.0 警告就会出现

变更记录

Why	Who	When
创建	武汉-运维-磨渣	2016-07-27

Ceph 状态报警告 pool rbd has many more objects per pg than average (too few pgs?)的更多相关文章

理解 OpenStack + Ceph （4）：Ceph 的基础数据结构 [Pool, Image, Snapshot, Clone]
本系列文章会深入研究 Ceph 以及 Ceph 和 OpenStack 的集成: (1)安装和部署 (2)Ceph RBD 接口和工具 (3)Ceph 物理和逻辑结构 (4)Ceph 的基础数据结构 ...
Ceph 的基础数据结构 [Pool, Image, Snapshot, Clone]
原文链接:http://www.cnblogs.com/sammyliu/p/4843812.html?utm_source=tuicool&utm_medium=referral 1 Poo ...
Kafka生产者案例报警告SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
一.SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder". 这个报警告的原因简单来说时因为slf4j的版本 ...
mac go环境报警告
go get -u github.com/beego/bee 报警告: # github.com/beego/beeld: warning: text-based stub file /System/ ...
IDEA maven 项目报警告解决（自己的maven配置记录）
IDEA maven 项目报警告解决应该是JDK版本太低虽然你装的高但是默认使用maven 默认的这里要配一下JDK版本理解不深入只为自己记录使用 1 配置仓库为阿里云配置本地储存j ...
写webpack插件报警告Tapable.plugin is deprecated. Use new API on .hooks instead解决方案，webpack4插件新写法
最近写了个小插件报了个警告,然后去百度了一下,全都给我说extract-text-webpack-plugin这个插件有问题要更新,我也是无语了,这个插件我用都没用,百度翻了下齐刷刷全是这个答案,搞得 ...
ceph集群jewel版本 rbd 块map 报错-故障排查
测试信息如下: [root@ceph_1 ~]# ceph osd pool lsrbdchy_123swimmingpool #新建rbd 块: rbd create swimmingpool/ba ...
ceph 005 赋权补充 rbd块映射
我的ceph版本 [root@serverc ~]# ceph -v ceph version 16.2.0-117.el8cp (0e34bb74700060ebfaa22d99b7d2cdc037 ...
ios8调用相机报警告: Snapshotting a view that has not been rendered results in an empty snapshot. Ensure you(转)
我这也报了这个警告,但按他的方法并没有起作用,把写到这个地方看是否其他人用的到错误代码:Snapshotting a view that has not been rendered results ...

随机推荐

带权二分图最大匹配KM算法
二分图的判定如果一个图是连通的,可以用如下的染色法判定是否二分图: 我们把X部的结点颜色设为0,Y部的颜色设为1. 从某个未染色的结点u开始,做BFS或者DFS .把u染为0,枚举u的儿子v.如果v ...
题解 CF1428A 【Box is Pull】
通过理解题意,我们发现: 当需要拐弯的时候,兔子需要先走回箱子的位置,再走向拐弯的方向.则拐弯操作的花费为 \(2\) .而直行的操作花费为 \(1\) . 所以, 如果不需要拐弯,也就是 \(x1= ...
frida- registernatives获取so层动态注册函数
frida获取so层动态注册函数谢谢大佬的无私奉献https://github.com/lasting-yang/frida_hook_libart 一.js模板一 function hook_Re ...
JSONObject与JSONArray,转换为字符串
public class TestArrayToList { public static void main(String[] args) { // TODO Auto-generated metho ...
第12天 | 12天搞定Python，让excel飞起来
学了10多天Python基础知识了,是时候来点硬货了,看过<第1天 | 12天搞定Python,告诉你有什么用?>的老铁都知道,Python可用的领域挺多的.只是我长期待在企业,所以只能说 ...
Parcelable使用(一)
android有两种序列化方式:一是实现Serializable接口(是JavaSE本身就支持的),二是实现Parcelable接口(是Android特有功能,效率比实现Serializable接口高 ...
JAVA代码实现抖音短视频去水印功能
今天有人找我帮他抖音视频去水印,发到朋友圈,然后就研究了一下.去水印功能代码如下: public class DouYinQushuiyin { public static void main(Str ...
【4】TensorFlow光速入门-保存模型及加载模型并使用
本文地址:https://www.cnblogs.com/tujia/p/13862360.html 系列文章: [0]TensorFlow光速入门-序 [1]TensorFlow光速入门-tenso ...
codefroces中的病毒，这题有很深的trick，你能解开吗？
大家好,欢迎阅读周末codeforces专题. 我们今天选择的问题是contest 1419的C题,目前有接近8000的人通过了本题.今天这题的难度不大,但是真的很考验思维,一不小心就会踩中陷阱,我个 ...
SpringBook+Lombok 使用教程
什么是Lombok? Lombok项目是一个Java库,它会自动插入编辑器和构建工具中,Lombok提供了一组有用的注释,用来消除Java类中的大量样板代码. Lombok也存在一定风险,在一些开发工 ...