1.存活监控 基本监控,主要对进程的存活.端口连通性.url可检测性等指标进行监控. 2.2 可用性监控 主要指对用户而言是否可用,能否返回预期结果,通常部署在一些业务主流程或一些关键环节,如接口调用,平台读写操作,端到端访问等. 2.3 性能指标 性能指标指可能影响业务正常运行的重要指标,一般偏离正常范围需人工干预,如io.cpu.rpc/handler tps,queue.连接数等. 2.4 容量指标 与资源相关,能直接推导资源用量的指标,该类指标异常可能触发扩容需求,如hdfs使用率.hb