前提:如果namenode没有做HA,那么至少应该启用secondarynamenode,以便namenode宕机之后手动恢复数据 实验环境:3个节点(cenos 6.10) 测试前数据: 1.为了确保数据尽可能恢复,手动checkpoint一下 [root@hadoop1 dfs]# hdfs secondarynamenode -checkpoint force /************************************************************ STA…
情景再现: 在修复hadoop集群某一个datanode无法启动的问题时,搜到有一个答案说要删除hdfs-site.xml中dfs.data.dir属性所配置的目录,再重新单独启动该datanode即可: 问题就出在这个误删除上,当时是在namenode的hadoop/hdfs/目录下,然后就执行了一个可怕的命令 rm -rf data rm -rf name #存储namenode永久性元数据目录 当时还不知道删除这个的可怕,以为只是误删除了普通数据而已,然后再转到datanode下再次执行删…
Vertica集群单节点宕机恢复方法 第一种方法: 直接通过admintools -> 5 Restart Vertica on Host 第二种方法: 若第一种方法无法恢复,则清空宕机节点的catalog 和 data目录 比如 v_testdb_node0001_catalog/ v_testdb_node0001_data/ 然后从其他节点拷贝catalog目录下的vertica.conf,然后恢复.…
一.mysql group replication 生来就要面对两个问题: 一.主节点宕机如何恢复. 二.多数节点离线的情况下.余下节点如何继续承载业务. 在这里我们只讨论第一个问题.也就是说当主结点宕机之后.我们怎么把它从新加入到高可用集群中去.这个问题又可以细分成 两种情况: 1.温和打击:主结点的数据还在.宕机期间集群中的其它结点的binlog日志也都还在 这种情况下重新启动mysql group replication 就可修复问题. 2.毁灭打击:主结点的数据都没有了 这种情况下要从其…
(一)问题背景 最近在生产环境中,开发人员误操作,使用truncate将oracle数据库某个表的数据全部删除了,在删除之后,开发人员发现自己闯祸了,于是联系值班的DBA进行紧急数据恢复. 经过分析,表被truncate后,使用一般的闪回表.闪回查询.闪回事物等方法,是不可能将数据找回来的,可以使用闪回数据库.闪回数据归档的方法来进行恢复,但是通常在生产环境中,都不会开启这2个特性,所以剩下的只有使用RMAN进行数据恢复了. 对于使用RMAN进行数据恢复,可以在生产环境上直接进行,也可以恢复到其…
Region Server宕机总述 HBase一个很大的特色是扩展性极其友好,可以通过简单地加机器实现集群规模的线性扩展,而且机器的配置并不需要太好,通过大量廉价机器代替价格昂贵的高性能机器.但也正因为廉价机器,由于网络硬盘等各方面的原因,机器宕机的概率就会相对比较大.RegionServer作为HBase集群中实际的执行节点,不可避免地也会出现宕机. 宕机并不十分可怕,因为不会丢数据.HBase集群中一台RegionServer宕机(实指RegionServer进程挂掉,下文同)并不会导致已经…
问题现象 云南计算节点YN-ec-compute-19因系统盘损坏宕机且操作系统无法恢复,其上本地虚拟机无法疏散且无法迁移 拟采用drbd备份的数据对compute19上的虚拟机进行恢复 恢复方法 1.确认compute19的drbd主备节点,一般是相邻的节点compute18或compute20,确认方法如下 登录compute20 lsblk显示有/dev/drbd0和/dev/drbd1两个设备,其中/dev/drbd1已挂载到目录/one_images 查看/etc/drbd.d/drb…
1       情况概述 公司的开发集群在周末莫名其妙的主节点Hadoop-1的启动固态盘挂了,由于CM.HDFS的NameNode.HBase的Master都安装在Hadoop-1,导致了整个集群都无法使用,好在数据不在启动盘. Hadoop-1的系统必须重装,但是不能重装集群,因为要将之前的数据全部保留恢复,所以只能通过集群恢复的手段将集群重新跑起来. 主要服务角色安装情况: Hadoop-1: CM,HDFS( NN,DN ),HBase(HMaster, RegionServer),YA…
本次测试目的是从生产数据库导出rman备份然后在测试数据库恢复 1,拷贝备份至相应目录 2,进入rman rman target \ 3,关闭数据库 shutdown 4,以nomount模式启动数据库 startup nomount 5,恢复控制文件 restore controlfile from ' /home/oracle/rman_backup/cf_c-1383295282-20171102-00'; 6,挂载数据库 alter database mount; 7,设置catalog…
大家都知道在双十一这些电商大型营销活动期间,电商网站的访问量等是平时的N倍.每当这个时候到来,无论是开发还是运维人员都严阵以待生怕服务出现问题.很不幸,笔者的一个朋友在一家电商公司上班,在双十一时,恰恰就出现了NameNode宕机的生产事故. 鉴于涉及到一些公司私密信息,不便发一些排查问题截图,同时,JVM调优作为大数据从业者必备技能,笔者打算后续分篇系统阐述,这里仅就问题现象.问题分析.解决方案三个层面阐述这次生产事故从产生.排查到最终解决的历程.希望能给大家带来一定思考,避免此类事情的发生以…