背景

集群状态报错，如下：

# ceph -s

    cluster 1d64ac80-21be-430e-98a8-b4d8aeb18560

     health HEALTH_WARN		<-- 报错的地方

            too many PGs per OSD (912 > max 300)

     monmap e1: 1 mons at {node1=109.105.115.67:6789/0}

            election epoch 4, quorum 0 node1

     osdmap e49: 2 osds: 2 up, 2 in

            flags sortbitwise,require_jewel_osds

      pgmap v1256: 912 pgs, 23 pools, 4503 bytes data, 175 objects

            13636 MB used, 497 GB / 537 GB avail

                 912 active+clean

分析

问题原因是集群osd 数量较少，在我的测试过程中，由于搭建rgw网关、和OpenStack集成等，创建了大量的pool，每个pool要占用一些pg ，ceph集群默认每块磁盘都有默认值，好像每个osd 为300个pgs，不过这个默认值是可以调整的，但调整得过大或者过小都会对集群的性能产生一定影响。因为我们这个是测试环境，只要能消除掉报错即可。查询当前每个osd下最大的pg报警值：

$ ceph --show-config  | grep mon_pg_warn_max_per_osd

mon_pg_warn_max_per_osd = 300

解决方案

在配置文件中，调大集群的此选项的告警阀值；方法如下，在mon节点的ceph.conf（/etc/ceph/ceph.conf）配置文件中添加:

$ vi /etc/ceph/ceph.conf

[global]

.......

mon_pg_warn_max_per_osd = 1000

重启monitor服务：

$ systemctl restart ceph-mon.target

再次查看ceph集群状态。

$ ceph -s

cluster 1d64ac80-21be-430e-98a8-b4d8aeb18560

 health HEALTH_OK

 monmap e1: 1 mons at {node1=109.105.115.67:6789/0}

        election epoch 6, quorum 0 node1

 osdmap e49: 2 osds: 2 up, 2 in

        flags sortbitwise,require_jewel_osds

  pgmap v1273: 912 pgs, 23 pools, 4503 bytes data, 175 objects

        13636 MB used, 497 GB / 537 GB avail

             912 active+clean

ceph -s集群报错too many PGs per OSD的更多相关文章

quartz集群报错but has failed to stop it. This is very likely to create a memory leak.
quartz集群报错but has failed to stop it. This is very likely to create a memory leak. 在一台配置1核2G内存的阿里云服务器 ...
redis集群报错
写入redis集群报错:(error) MOVED 6918 解决方法:redis-cli -c -p 7001 -h 10.0.0.104
nginx集群报错“upstream”directive is not allow here 错误
nginx集群报错“upstream”directive is not allow here 错误搭建了一个服务器, 采用的是nginx + apache(多个) + php + mysql(两个) ...
dfs.datanode.max.xcievers参数导致hbase集群报错
2013/08/09 转发自http://bkeep.blog.163.com/blog/static/123414290201272644422987/ [案例]dfs.datanode.max.x ...
Redis创建集群报错
Redis创建集群报错: 1:任何一个集群节点中都不能存在数据,如果有备份一下删除掉aof文件或rdb文件 2: nodes-集群端口.conf 文件存的会有报错记录,所以该文件也要删除
搭建elsticsearch集群报错with the same id but is a different node instance解决办法
搭建elsticsearch集群报错with the same id but is a different node instance解决办法学习了:https://blog.csdn.net/q ...
Ceph 存储集群2-配置：心跳选项、OSD选项、存储池、归置组和 CRUSH 选项
一.心跳选项完成基本配置后就可以部署.运行 Ceph 了.执行 ceph health 或 ceph -s 命令时,监视器会报告 Ceph 存储集群的当前状态.监视器通过让各 OSD 自己报告.并接 ...
redis集群报错:(error) CLUSTERDOWN Hash slot not served
百度上坑太多,如果你遇到搭建redis集群的时候出现这个错误在百度上找到解决办法基本上都是坑. 首先集群搭建完成后,你肯定去登陆redis进行测试 1.redis01/redis-cli -h &qu ...
cnetos 7 mariadb 集群报错分析解答
1.故障1:通过查看/var/log/message 发现报错 2017-04-14 14:44:10 139845276428544 [ERROR] WSREP: It may not be saf ...

随机推荐

python3 python2 import 的区别
https://stackoverflow.com/questions/12172791/changes-in-import-statement-python3
使用ListView控件展示数据
属性名称说明items 指定显示那种视图View 指定显示那种视图largelmagelist 大图标图像的imagelist控件SmallLmagelist 小图标图像的imag ...
primer漏配问题解决
在对之前的ITS数据(454数据)做split时,发现有一些reads没有被匹配上,但是barcode能够完全匹配,虽然之后的primer在中间漏了一个碱基,导致后面的碱基全部误匹配,从而导致这条re ...
Python day 7(1) 模块
一:模块 1 在Python中,一个.py文件就称之为一个模块(Module) 2 Python的好处,优点: a 提高了代码的可维护性 b 当一个模块编写完毕,就可以被其他地方引用.我们在编写程 ...
一图看懂java内存模型
熟话说一张好图胜过千言万语,在此便将java内存模型重新整理了一次,将细节标注到图中献给需要的同学:
讲述Sagit.Framework解决：双向引用导致的IOS内存泄漏（下）- block中任性用self
前言: 在处理完框架内存泄漏的问题后,见上篇:讲述Sagit.Framework解决:双向引用导致的IOS内存泄漏(中)- IOS不为人知的Bug 发现业务代码有一个地方的内存没释放,原因很也简单: ...
Go执行远程ssh命令
使用包:golang.org/x/crypto/ssh 以下封装一个发送命令的Cli结构体 type Cli struct { IP string //IP地址 Username string //用 ...
【转载】MySQL · 性能优化· InnoDB buffer pool flush策略漫谈
背景我们知道InnoDB使用buffer pool来缓存从磁盘读取到内存的数据页.buffer pool通常由数个内存块加上一组控制结构体对象组成.内存块的个数取决于buffer pool inst ...
Linux基本操作笔记
1.Linux是一个统称,内核是一致的.分为Linux系统管理员和Linux程序员包括管理和软件开发. 2.要掌握Linux,有四步,第一,在Linux平台上的开发,比如,vi.gcc.gdb等和Li ...
Django-环境搭建
django开发环境搭建环境说明 python django mysql pymysql pycharm 安装过程安装python3.6.3 64位下载地址: https://www.python ...

ceph -s集群报错too many PGs per OSD

背景

分析

解决方案

ceph -s集群报错too many PGs per OSD的更多相关文章

随机推荐

热门专题