可靠性 基本概念 可靠性 系统从基础设施或服务故障中恢复.动态获取计算资源以满足需求减少中断的能力 系统为最坏情况做好准备,对不同组件实施缓解措施,对恢复程序进行提前测试并且自动执行. 可靠性实践 测试恢复程序 在本地环境中,证明系统在特定场景下是可以正常运行的,测试系统是如何发生故障并验证恢复程序. 使用自动化来模拟和重现故障,确认故障路径,以便在故障发生前进行测试和纠正,从而降低为测试组件出现故障的风险 自动从故障恢复 通过监控系统的KPI指标,达到阈值时就触发自动化进程,实现自动故障和跟踪…