在企业生产中,集群一旦运行,是要尽可能的将损失降到最低,现在所有的大数据技术都有HA,spark的.Hadoop的.HBase的等等, HA分冷备和热备,热备是集群自带的,冷备就是硬件的. 这样一种情况:晚上了,人睡着了,突然的大数据量来了,nameNode.master崩了,HA启动了另一台备用节点,然而数据量依然很大,另一台也崩了,好吧集群废了? 咋办? 这就是冷备的需要,进程掉了,在服务器运行的情况下: 有一种机制可以启动进程服务,crontab+shell 五分钟之内检查进程情况,没有启…