记一次ceph pg unfound处理过程

今天检查ceph集群，发现有pg丢失，于是就有了本文~~~

1.查看集群状态

[root@k8snode001 ~]# ceph health detail

HEALTH_ERR 1/973013 objects unfound (0.000%); 17 scrub errors; Possible data damage: 1 pg recovery_unfound, 8 pgs inconsistent, 1 pg repair; Degraded data redundancy: 1/2919039 objects degraded (0.000%), 1 pg degraded

OBJECT_UNFOUND 1/973013 objects unfound (0.000%)

    pg 2.2b has 1 unfound objects

OSD_SCRUB_ERRORS 17 scrub errors

PG_DAMAGED Possible data damage: 1 pg recovery_unfound, 8 pgs inconsistent, 1 pg repair

    pg 2.2b is active+recovery_unfound+degraded, acting [14,22,4], 1 unfound

    pg 2.44 is active+clean+inconsistent, acting [14,8,21]

    pg 2.73 is active+clean+inconsistent, acting [25,14,8]

    pg 2.80 is active+clean+scrubbing+deep+inconsistent+repair, acting [4,8,14]

    pg 2.83 is active+clean+inconsistent, acting [14,13,6]

    pg 2.ae is active+clean+inconsistent, acting [14,3,2]

    pg 2.c4 is active+clean+inconsistent, acting [8,21,14]

    pg 2.da is active+clean+inconsistent, acting [23,14,15]

    pg 2.fa is active+clean+inconsistent, acting [14,23,25]

PG_DEGRADED Degraded data redundancy: 1/2919039 objects degraded (0.000%), 1 pg degraded

    pg 2.2b is active+recovery_unfound+degraded, acting [14,22,4], 1 unfound

从输出发现pg 2.2b is active+recovery_unfound+degraded, acting [14,22,4], 1 unfound

现在我们来查看pg 2.2b，看看这个pg得想想信息。

[root@k8snode001 ~]# ceph pg dump_json pools    |grep 2.2b

dumped all

2.2b       2487                  1        1         0       1  9533198403 3048     3048                active+recovery_unfound+degraded 2020-07-23 08:56:07.669903  10373'5448370  10373:7312614  [14,22,4]         14  [14,22,4]             14  10371'5437258 2020-07-23 08:56:06.637012   10371'5437258 2020-07-23 08:56:06.637012             0

可以看到它现在只有一个副本

2.查看pg map

[root@k8snode001 ~]# ceph pg map 2.2b

osdmap e10373 pg 2.2b (2.2b) -> up [14,22,4] acting [14,22,4]

从pg map可以看出，pg 2.2b分布到osd [14,22,4]上

3.查看存储池状态

[root@k8snode001 ~]# ceph osd pool stats k8s-1

pool k8s-1 id 2

  1/1955664 objects degraded (0.000%)

  1/651888 objects unfound (0.000%)

  client io 271 KiB/s wr, 0 op/s rd, 52 op/s wr

[root@k8snode001 ~]# ceph osd pool ls detail|grep k8s-1

pool 2 'k8s-1' replicated size 3 min_size 1 crush_rule 0 object_hash rjenkins pg_num 256 pgp_num 256 last_change 88 flags hashpspool,selfmanaged_snaps stripe_width 0 application rbd

4.尝试恢复pg 2.2b丢失的块

[root@k8snode001 ~]# ceph pg repair 2.2b

如果一直修复不成功，可以查看卡住PG的具体信息，主要关注recovery_state，命令如下

[root@k8snode001 ~]# ceph pg 2.2b  query

{

    "......

    "recovery_state": [

        {

            "name": "Started/Primary/Active",

            "enter_time": "2020-07-21 14:17:05.855923",

            "might_have_unfound": [],

            "recovery_progress": {

                "backfill_targets": [],

                "waiting_on_backfill": [],

                "last_backfill_started": "MIN",

                "backfill_info": {

                    "begin": "MIN",

                    "end": "MIN",

                    "objects": []

                },

                "peer_backfill_info": [],

                "backfills_in_flight": [],

                "recovering": [],

                "pg_backend": {

                    "pull_from_peer": [],

                    "pushing": []

                }

            },

            "scrub": {

                "scrubber.epoch_start": "10370",

                "scrubber.active": false,

                "scrubber.state": "INACTIVE",

                "scrubber.start": "MIN",

                "scrubber.end": "MIN",

                "scrubber.max_end": "MIN",

                "scrubber.subset_last_update": "0'0",

                "scrubber.deep": false,

                "scrubber.waiting_on_whom": []

            }

        },

        {

            "name": "Started",

            "enter_time": "2020-07-21 14:17:04.814061"

        }

    ],

    "agent_state": {}

}

如果repair修复不了；两种解决方案，回退旧版或者直接删除

5.解决方案

回退旧版

[root@k8snode001 ~]# ceph pg  2.2b  mark_unfound_lost revert

直接删除

[root@k8snode001 ~]# ceph pg  2.2b  mark_unfound_lost delete

6.验证

我这里直接删除了，然后ceph集群重建pg,稍等会再看，pg状态变为active+clean

[root@k8snode001 ~]#  ceph pg  2.2b query

{

    "state": "active+clean",

    "snap_trimq": "[]",

    "snap_trimq_len": 0,

    "epoch": 11069,

    "up": [

        12,

        22,

        4

    ],

再次查看集群状态

[root@k8snode001 ~]# ceph health detail

HEALTH_OK

记一次ceph pg unfound处理过程的更多相关文章

ceph PG数量调整/PG的状态说明
优化: PG Number PG和PGP数量一定要根据OSD的数量进行调整,计算公式如下,但是最后算出的结果一定要接近或者等于一个2的指数.调整PGP不会引起PG内的对象的分裂,但是会引起PG的分布的 ...
Ceph PG介绍及故障状态和修复
1 PG介绍pg的全称是placement group,中文译为放置组,是用于放置object的一个载体,pg的创建是在创建ceph存储池的时候指定的,同时跟指定的副本数也有关系,比如是3副本的则会有 ...
解Bug之路-记一次存储故障的排查过程
解Bug之路-记一次存储故障的排查过程高可用真是一丝细节都不得马虎.平时跑的好好的系统,在相应硬件出现故障时就会引发出潜在的Bug.偏偏这些故障在应用层的表现稀奇古怪,很难让人联想到是硬件出了问题, ...
利用火焰图分析ceph pg分布
前言性能优化大神Brendan Gregg发明了火焰图来定位性能问题,通过图表就可以发现问题出在哪里,通过svg矢量图来查看性能卡在哪个点,哪个操作占用的资源最多在查看了原始数据后,这个分析的原理 ...
Ceph pg分裂流程及可行性分析
转自:https://www.ustack.com/blog/ceph-pg-fenlie/ 1 pg分裂 Ceph作为一个scalable的分布式系统,集群规模会逐渐增大,为了保证数据分布的均匀性, ...
记一次ceph的故障修复(20160408)
ceph的在正常运行的时候基本不会出现故障,出现故障一般在变动的时候,具体有下面几种可能出现的情形软件升级增加存储节点减少存储节点调整副本数目调整pg数目磁盘出现损坏节点网络出现异常以 ...
在Ceph创建虚拟机的过程改进分析
作为个人学习笔记分享.有不论什么问题欢迎交流! 近期在Gerrit中看到一个change:https://review.openstack.org/#/c/94295/ , 它主要是对当前在Ceph中 ...
[转] 关于 Ceph PG
本系列文章会深入研究 Ceph 以及 Ceph 和 OpenStack 的集成: (1)安装和部署 (2)Ceph RBD 接口和工具 (3)Ceph 物理和逻辑结构 (4)Ceph 的基础数据结构 ...
记一次ceph集群的严重故障
问题:集群状态,坏了一个盘,pg状态好像有点问题[root@ceph-1 ~]# ceph -s cluster 72f44b06-b8d3-44cc-bb8b-2048f5b4acfe ...

随机推荐

第 16 章【硬核!】垃圾回收相关 GC细讲
第 16 章垃圾回收相关概念 1.System.gc() 的理解 1.1.System.gc() 方法 System.gc() 方法在默认情况下,通过System.gc()者Runtime.get ...
RabbitMQException com.rabbitmq.client.ShutdownSignalException: connection error; protocol meth
异常1 org.springframework.beans.factory.UnsatisfiedDependencyException: Error creating bean with name ...
WEBSERVICE 分析器错误信息: 未能创建类型
问题描述分析器错误说明: 在分析向此请求提供服务所需资源时出错.请检查下列特定分析错误详细信息并适当地修改源文件. 分析器错误信息: 未能创建类型"Service1". 源错误 ...
Python--批量修改文件名称
Dr. he 最近忙着毕业论文的事情,需要将一千多张超声切面图的文件名后缀名去掉,例如:剔除文件名"1802014223FAMFIBAI.jpg"的第11个字符至第18个字符&qu ...
[leetcode]TwoSum系列问题
1.普通数组找两个数,哈希表建立数值和下标的映射,遍历时一边判断一边添加 /* 哇,LeetCode的第一题...啧啧 */ public int [] twoSum(int[] nums, int ...
python实例：解决经典扑克牌游戏 -- 四张牌凑24点（一）
Hey! Hope you had a great day so far! 今天想和大家讨论的是一道我从这学期cs的期末考试得到灵感的题:Get 24 Poker Game.说到 Get 24 Pok ...
java数组之排序
/** * String排序算法依据<b>词典编排顺序排序</b><br> * 所以大写字母开头的词都放在前面输出,之后才是小写之母开头的词 *@date:2018 ...
Linux 时间同步 01 简介
Linux 时间同步 01 简介目录 Linux 时间同步 01 简介时间同步公共NTP服务器地址及IP 系统时间相关文件时间同步大数据产生与处理系统是各种计算设备集群的,计算设备将统一.同 ...
在onelogin中使用OpenId Connect Authentication Flow
目录简介 OpenId Connect和Authentication Flow简介 onelogin的配置工作使用应用程序连接onelogin 程序中的关键步骤总结简介 onelogin是一个 ...
微信小程序--投票小程序设计与实现(图片、视频发布、分组、审核、排名)
投票微信小程序设计与实现(图片.视频发布.分组.审核.排名) 之前接到一个需求,设计一个类似H5 投票系统之类的小程序,我绞尽脑汁,冥思苦想,最后终于做了出来. 再次感谢 @文晓港的ColorU ...