SRE心里话：要求100%服务可用性就是老板的无知

《SRE Google 运维解密》第3章讲了拥抱风险，一些关键的观点，在这里与大家分享，融入了我自己的一些理解，希望对你有些帮助。

服务可用性必须100%？其实完全没必要

一个服务客户的产品，不需要追求极端的可用性，因为实在是没有必要。比如一个论坛服务，用户使用智能手机来访问，手机本身有可能故障，手机的蜂窝网络可能出问题，如果用的 wifi 本地路由器可能出问题，小区宽带可能出问题，运营商的骨干网可能出问题，这些都不是论坛服务能够控制的。简单来说，用户在一个有着 99% 可靠性的智能手机上，是不能分辨出 99.99% 和 99.999% 的服务可靠性的区别的。

高可靠性带来高成本

99.99% 的可用性，每年不可用时长不能超过 53 分钟，如果是 99.999% 的可用性，每年不可用时长不能超过 5.3 分钟。多了一个 9，不可用时长只是缩减了 47.7 分钟，但是付出的成本可能是巨大的，需要衡量 ROI 是否值得。成本通常来自两个方面：

冗余物理服务器/计算资源的成本
机会成本

机会成本是说，我们把过多的人力投入到稳定性建设上了，导致投入到业务功能开发的人力就变少了，这个机会成本是很难估量的，但是很重要。

如何度量可用性

通常的做法是按照计划外停机时间来度量，比如：

可用性 = 系统正常运行时间 / (系统正常运行时间 + 系统计划外停机时间)

这个计划外停机时间，通常是指系统不可用的时间，比如系统崩溃了，或者系统的某个功能不可用了，或者系统的某个功能的性能下降了，都可以算作计划外停机时间。与计划外停机时间相对的，显然是计划内停机时间，偶尔通知用户，说凌晨3点我会做系统升级，计划停机3分钟，这个3分钟就是计划内停机时间，这3分钟内的不可用，不影响SLA。

但是，很多系统都是分布式的，尤其是 Google，一个服务，通常不会完全不可用，可能某个 region 不可用，但是其他 region 还可用，所以，大型互联网公司的服务通常是不会 100% 不可用的，可能会部分不可用，此时这个计划外停机时间就不好计算了。怎么办？使用请求数量来统计，可用性计算公式变成：

可用性 = 成功请求数 / 总的请求数

这是服务可用性的度量方法，一个大型互联网公司可能有几千个微服务，老板问技术团队，咱们今年的可用性如何？显然没法使用服务层面的数据，那就把众多微服务做个加权平均？也不那么说得通！那公司整体业务的 SLO 应该怎么算？一般是看业务指标，分享一下滴滴的做法，滴滴最核心的业务就是打车，核心就看打车的订单量，如果订单量下跌 10%，就开始计算不可用时长，这是整个公司最重要的可用性指标。这种指标称为北极星指标，我们现在创业就专门做了一个北极星指标的产品，对北极星指标做 VIP 级别的保障。详情可以了解这里。

谁来制定SLO？

在 Google，对于服务于终端用户的产品，通常有个产品技术团队，是这个服务的「商业所有者」，这个团队明确知道自己的商业目标，可以拍板 SLO。因为：SLO 最终是服务于商业目标的！

通常来讲，线上 70% 的故障是变更导致的，更好的 SLO 意味着线上变更的频率会降低，但是低频的变更，就意味着有些功能 feature 不能尽快发布给终端用户，终端用户的体验就会变差，竞争对手可能有更花哨好用的功能，我们无法及时跟进。那好，那就更快的变更，更快的变更通常意味着稳定性变差，所以就需要权衡了，这本质上是一个商业取舍，所以，需要商业所有者来拍板。而这个商业所有者，对于服务于终端用户的产品，通常就是产品团队，最终可能是这个业务的负责人最终拍板。

服务于内部的基础设施，比如 BigTable 这样的服务，没有终端用户，那谁来拍板？基础设施类服务，通常是服务于内部其他服务的，此时应该是 BigTable 的研发团队和上游服务所有者一起拍板，制定 SLO。

BigTable 可能同时服务两类上游服务，举例：一类上游服务是面向终端用户的，他们需要更低的延迟，另一类上游服务可能是离线任务，在 BigTable 里存储离线分析数据，他们需要更大的吞吐。低延迟的上游服务希望 BigTable 的请求队列（几乎总是）为空，这样系统可以立刻处理每个出现的请求。而离线分析的上游服务，需要更高的吞吐，希望 BigTable 繁忙，希望请求队列永远不为空。如果拿请求队列长度作为 SLO，就尴尬了...

所以，对于差异化要求比较大的基础设施，通常会拆分成不同的集群，提供不同维度的 SLO。

提升 SLO 的时候要注意 ROI

举个例子，假设某个服务每一个请求的价值是一样的：

可用性目标希望从 99.9% 提升至 99.99%
增加的可用性：0.09%
服务收入：100万美金
改进可用性后的价值：100万 * 0.09% = 900 美金

可用性提升一个 9，收益是 900 美金，如果提升一个 9 的成本低于 900 美金，就是划算的，如果高于 900 美金，就是不划算的。

SLO和错误预算构建过程

产品管理层定义一个 SLO，确定一项服务在每个季度预计的正常运行时间
实际在线时间是通过一个中立的第三方来测算的：我们的监控系统
这两个数字之间的差值就是这个季度中剩余的不可靠性预算
只要测算出的正常在线时间高于 SLO，也就是说，只要仍然有剩余的错误预算，就可以发布新的版本

扩展阅读

SRE心里话：要求100%服务可用性就是老板的无知的更多相关文章

Kubernetes 服务部署最佳实践(二) ——如何提高服务可用性
引言上一篇文章我们围绕如何合理利用资源的主题做了一些最佳实践的分享,这一次我们就如何提高服务可用性的主题来展开探讨. 怎样提高我们部署服务的可用性呢?K8S 设计本身就考虑到了各种故障的可能性,并提 ...
数据一致性(consistency)、服务可用性(availability)、分区容错性(partition-tolerance)
数据一致性(consistency).服务可用性(availability).分区容错性(partition-tolerance) 分布式系统理论基础 - CAP 2016-04-04 18:27 b ...
SLA服务可用性怎么达到？
SLA:服务等级协议(简称:SLA,全称:service level agreement).是在一定开销下为保障服务的性能和可用性,服务提供商与用户间定义的一种双方认可的协定.通常这个开销是驱动提供服 ...
LA服务可用性4个9是什么意思？怎么达到？
SLA:服务等级协议(简称:SLA,全称:service level agreement).是在一定开销下为保障服务的性能和可用性,服务提供商与用户间定义的一种双方认可的协定.通常这个开销是驱动提供服 ...
SLA服务可用性4个9是什么意思？怎么达到？
SLA:服务等级协议(简称:SLA,全称:service level agreement).是在一定开销下为保障服务的性能和可用性,服务提供商与用户间定义的一种双方认可的协定.通常这个开销是驱动提供服 ...
浑身尖刺的服务可用性守护者——hystrix熔断器实践记录
netflix公司的产品hystrix(长满刺的豪猪),在高可用目标下具有一定熔断.限流.降级的作用.这里主要写一些自己在使用时的问题解决思路,原理请自行理解,包括线程池与信号量模式等. 注意三个参数 ...
Pod 健康检查和服务可用性检查
Kubernetes 对 Pod 的健康状态可以通过两类探针来检查:LivenessProbe 和 ReadinessProbe,kubelet 定期执行这两类探针来针对容器的健康状况. Livene ...
zabbix通过invoke调用监控服务可用性
1. 通过脚本判断线上服务是否可用 telnet 127.0.0.1 端口 #线上调用的是使用的dubbo端口通过invoke 抓取返回的code值,脚本如下 #返回code:0则视为正常,返回其他 ...
详解GaussDB(for MySQL)服务：复制策略与可用性分析
摘要:本文通过介绍GaussDB(for MySQL)读写路径,分析其可用性. 简介数据持久性和服务可用性是数据库服务的关键特征. 在实践中,通常认为拥有 3 份数据副本,就足以保证持久性. 但是 ...
读SRE Google运维解密有感(一)
前言这几天打算利用碎片时间读了一下"SRE Google运维解密"这本书,目前读了前几章,感觉收获颇多,结合自己的工作经历和书中的要点,写一些感悟和思考 SRE 有关SRE我就不 ...

随机推荐

CF1832B Maximum Sum 题解
[题目描述] 给定一个长度为 \(n\) 的数列,其中每个元素互不相同,进行 \(k\) 次操作,每次可以选择删除序列中最小的两个数或最大的一个数.求操作后剩余数的和的最大值. [思路] 我们构造一组 ...
走完线上 BUG 定位最后一公里
简介: 因为线上线下环境隔离的问题,线上的输入很多时候难以在日常环境中构造,定位 bug 效率低下.是否有简单快捷的办法呢? 一个小故事周末12点的闹钟在回龙观均价3000的出租屋急促的响起,程序员 ...
【阿里云EMR实战篇】以EMR测试集群版本为例，详解 Flink SQL Client 集成 Hive 使用步骤
简介: 以测试集群版本为例(EMR-4.4.1)-- Flink SQL Client 集成 Hive 使用文档作者:林志成,阿里云EMR产品团队技术支持,拥有多年开源大数据经验 1.以测试集群版本 ...
StarLake：汇量科技云原生数据湖的探索和实践
简介: 快速了解汇量科技在云原生数据湖领域的探索和实践,详解 StarLake 的架构及业务应用案例. 作者:陈绪(汇量科技资深算法架构师,EnginePlus 2.0 产品负责人) 内容框架: 互联 ...
Kettle on MaxCompute使用指南
简介: Kettle是一款开源的ETL工具,纯java实现,可以运行于Windows, Unix, Linux上运行,提供图形化的操作界面,可以通过拖拽控件的方式,方便地定义数据传输的拓扑.Kett ...
[FAQ] VScode 用户代码片段设置
以PHP为示例,配置如下: { "dpe": { "prefix": "dpe", "body": [ " ...
在 VisualStudio 给文件起一个带分号的文件名会怎样
小伙伴都知道在 Windows 下是支持文件名使用分号的,而写过 Roslyn 的小伙伴都知道,在 csproj 项目里面使用分号分割数组.那么在 VS 里面将一个文件名添加分号会如何?下面让咱写写看 ...
VSCode+VUE+ESLint以达到保存自动格式化
首先打开VSCode在.eslintrc.js中加入以下代码(不知道怎么找可以ctrl+shift+p进行搜索),添加 vscode 终端启动服务 // 添加⾃定义规则 'prettier/prett ...
开源文档预览项目 kkFileView (9.9k star) ，快速入门
kkFileView 是一款文件文档在线预览解决方案,采用流行的 Spring Boot 框架构建,易于上手和部署. 该项目基本支持主流办公文档的在线预览,包括但不限于 doc.docx.xls.xl ...
go 操作elasticsearch
olivere/elastic 包 github.com/olivere/elastic doc: https://pkg.go.dev/github.com/olivere/elastic?utm_ ...

SRE心里话：要求100%服务可用性就是老板的无知

SRE心里话：要求100%服务可用性就是老板的无知的更多相关文章

随机推荐

热门专题