Hadoop hbase集群断电数据块被破坏无法启动

集群机器意外断电重启，导致hbase 无法正常启动，抛出reflect invocation异常，可能是正在执行的插入或合并等操作进行到一半时中断，导致部分数据文件不完整格式不正确或在hdfs上block块不完整。

在网上查了一下相关资料，怀疑有可能是关闭前一些未提交的修改所存放的log文件数据写入一半文件不完整，故把hbase.hlog.split.skip.errors改成true进行尝试。

关于这个参数作用的解释：

当服务器奔溃，重启的时候，会有个回放的过程，把/hbase/WAL/下面记录的log都回放一遍，合并到每个region中，回放过程中如果有error发生，这个参数又是false，那么exception就会向外层输出，回放失败。

但是很遗憾，将此参数修改后hbase集群仍然无法正常启动。

然后就琢磨其他原因，先观察hbase启动时的60010监控页面，

发现部分region FAILED_OPEN错误，its007-meta表一共200个region，只启动成功199个。

似乎想到了什么，对了，很可能是这个region的数据文件格式不正确，那就先检查一下其在hdfs上的文件是否正常。

果不其然，观察hadoop的50070页面，会提示hadoop文件系统的具体路径上有两个数据块出错。

(关于hbase在hdfs上的目录相关文章链接：HBase在HDFS上的目录树)

解决方法：

1. 运行hadoop fsck / -files检查hdfs文件

2. 发现/hbase/oldWALs目录下有一个文件损坏，

运行hadoop fsck / -delete清除损坏的文件

3. 运行hbase hbck -details查看hbase概况，发现Table its007-meta有一个region加载失败

4. 运行hbase hbck -fixMeta尝试修复系统元数据表

5. 运行hbase hbck -fix尝试修复region数据不一致问题。

6. 再次运行hbase hbck -details发现问题仍然未修复，那个region仍然加载失败。

故直接将该region下出错的文件移走，暂时移至hdfs根目录

hadoop fs -move /hbase/data/default/its007-meta/fe6463cba743a87e99f9d8577276bada/meta/9a853fdbe13046fca194051cb9f69f9b /

fe6463cba743a87e99f9d8577276bada是region的名字

9a853fdbe13046fca194051cb9f69f9b是region下出错的HFile，有800k大小(注：一个region下可以有多HFile)

7. 运行hbase hbck -fix重新加载之前失败的region，至此完成修复，丢弃了出错的HFile

总结：

hbase在hdfs上一共两个文件损坏。(关于hdfs文件写入相关文章：hdfs文件写入相关概念)

一个是oldWALs下的，这个是存放一些没用的HLog文件的，这里有文件损坏，说明从WALs中转移没用的HLog写到oldWALs下时，写了一半断电导致hdfs上文件数据块出错;

另一个是region下一个HFile文件损坏，这个文件800k比较小，应该是从Memstore flush到HFile时，写了一半没写完导致其在hdfs上的文件数据块出错。

hbase region数据块出现问题可以先修复

查看hbasemeta情况

hbase hbck

1.重新修复hbase meta表

hbase hbck -fixMeta

2.重新将hbase meta表分给regionserver

hbase hbck -fixAssignments

如果修复失败，我们可以删除hdfs上的异常数据，删除META表中对应的region信息

Hadoop hbase集群断电数据块被破坏无法启动的更多相关文章

Hadoop（八）Java程序访问HDFS集群中数据块与查看文件系统
前言我们知道HDFS集群中,所有的文件都是存放在DN的数据块中的.那我们该怎么去查看数据块的相关属性的呢?这就是我今天分享的内容了一.HDFS中数据块概述 1.1.HDFS集群中数据块存放位置我 ...
Hadoop+HBase 集群搭建
Hadoop+HBase 集群搭建 1. 环境准备说明:本次集群搭建使用系统版本Centos 7.5 ,软件版本 V3.1.1. 1.1 配置说明本次集群搭建共三台机器,具体说明下: 主机名 IP ...
Hadoop跨集群迁移数据（整理版）
1. 什么是DistCp DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具.它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成.它把文件和目录的列表作为map任务的 ...
设置Hadoop+Hbase集群pid文件存储位置
有时候,我们对运行几天或者几个月的hadoop或者hbase集群做停止操作,会发现,停止命令不管用了,为什么呢? 因为基于java开发的程序,想要停止程序,必须通过进程pid来确定,而hadoop和h ...
大数据平台搭建-hadoop/hbase集群的搭建
版本要求 java 版本:1.8.*(1.8.0_60) 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downl ...
hadoop 集群中数据块的副本存放策略
HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性.可用性和网络带宽的利用率.目前实现的副本存放策略只是在这个方向上的第一步.实现这个策略的短期目标是验证它在生产环境下的有效 ...
Hadoop,HBase集群环境搭建的问题集锦(四)
21.Schema.xml和solrconfig.xml配置文件里參数说明: 參考资料:http://www.hipony.com/post-610.html 22.执行时报错: 23., /comm ...
Hadoop,HBase集群环境搭建的问题集锦(二)
10.艾玛, Datanode也启动不了了? 找到log: Caused by: java.net.UnknownHostException: Invalid host name: local hos ...
Spark+Hadoop+Hive集群上数据操作记录
[rc@vq18ptkh01 ~]$ hadoop fs -ls / drwxr-xr-x+ - jc_rc supergroup 0 2016-11-03 11:46 /dt [rc@vq18ptk ...

随机推荐

js中call、apply和bind的区别
在JS中,这三者都是用来改变函数的this对象的指向的,他们有什么样的区别呢.在说区别之前还是先总结一下三者的相似之处:1.都是用来改变函数的this对象的指向的.2.第一个参数都是this要指向的对 ...
url的使用
1.urls.py 默认是在主目录中,主路由配置文件,会包含最基本的地址映射,并且每个地址访问都必须要先经过该文件. 作用:通过 urls中定义好的地址找到对应的视图处理函数 urlpatterns ...
parson json解析
最近交互数据中用到JSON数据,很多年以前用过CJSON解析和生成JSON数据,貌似CJSON已经发展成为了libjson,本打算用libjson库,不过其提供的解析JSON方式采用了回调,是测试过程 ...
论container的前世今生
why Normally, thin-client multitiered applications are hard to write because they involve many lines ...
seo：网站被黑的预防及处理方法
一.网站被黑的类型有哪些 1.网站挂木马 :通过网站后台 FTP等植入恶意代码 2.网站域名被恶意泛解析 3.跳转 4.百度快照劫持:黑客劫持快照在你不工作的时候进入你的网站的,一般是凌晨1点到5. ...
服务器-华为RH2288H V3-Server 2008R2忘记登录密码操作方法
1.插入PE盘,重启服务器. 下载地址:http://pan.baidu.com/s/1c16cP6C 密码: 18hq 注:这是支持全系列阵列卡的专用服务器PE工具,市面上的绝大多数PE在服务器中都 ...
（3）HTML常用标签 + 快捷字符
1.<meta charset="UTF-8"> #定义字符编码 2.<!doctype + 类型> #规定文档类型 3. ...
Go Example--通道方向
package main import "fmt" func main() { pings := make(chan string, 1) pongs := make(chan s ...
CH3B16 魔法珠
题意 3B16 魔法珠 0x3B「数学知识」练习描述 Freda和rainbow是超自然之界学校(Preternatural Kingdom University,简称PKU)魔法学院的学生.为了展 ...
uwsgi 报MemoryError
网站部署后,基本一天有时候几个小时就会502,查看uwsgi日志看到,一直在报MemoryError的错之前以为是python版本的问题,说是32位的python最多支持2G,但查看了python版 ...

Hadoop hbase集群断电数据块被破坏无法启动

Hadoop hbase集群断电数据块被破坏无法启动的更多相关文章

随机推荐

热门专题