有一段实践没有写东西了,最近组里面来了两个新的小伙伴,并且一起针对目前的hbase集群做了一些运维和优化实践,比较零散,记录下来供以后以及和大家参考. 1,hbase regionserver宕机导致集群状态不一致问题处理和原因调研 问题:region server因oom被kill后,通过hack检查,发现集群中某些表出现不一致,不一致信息如下: Region XXX not in Meta, but deployed on XXXX. 诊断:正常情况下regionserver宕机系统不应该出…