综合利用Nagios.Ganglia和Splunk搭建起的云计算平台监控体系,具备错误报警.性能调优.问题追踪和自动生成运维报表的功能.有了这套系统,就可轻松管理Hadoop/HBase云计算平台. 云计算早已不是停留在概念阶段了,各大公司都购买了大量的机器,开始正式的部署和运营.而动辄上百台的性能强劲的服务器,为运营管理带来了巨大的挑战. 如果没有方便的监控报警平台,对于管理员而言犹如噩梦,每天都将如救火队员一样,飞快地敲击键盘,用原始的Unix命令在多台机器中疲于奔命. 如果没有好的日志管理…