先说一下需求吧,公司开发了一款新的产品,新产品嘛,有着不得不出问题的理由,四个云机房,总共三百余台机器,需要实时的监控进程状态,虽然有zabbix来实现,但领导需求是脚本和zabbix一起做,zabbix网上有现成的教程,今天主要说的是shell的实现思路与方式: 1.使用脚本来进行进程监控,将进程宕掉的具体信息保留,具体的话,就是时间,然后顺带着将其重启. 2.将每台机器的信息定时汇总到一台机器上,需要考虑到的是时间的一致性. 3.使用脚本对这些汇总的信息进行遍历,汇总到一个文件下,实现一目了…