[转帖]Tail Latency学习

https://www.cnblogs.com/Rohn/p/15123758.html

Latency，中文译作延迟，Tail Latency即尾延迟。

实际生产中的Latency是一种（概率）分布，实际上被描述为百分位数。延迟可以在 75% 百分位处翻倍，在 99% 之后高出 100 倍。

什么导致了尾延迟

磁盘老化。Disk just get slowdown time to time for no reason. The Tail at Store gives more in-depth analysis. Also, disks may degrade significantly when they get old.
超时。Failure tolerance and retry is a common design pattern in distributed systems. But one retry is enough to send current request to latency tail. Google SRE Book chapter 21 to 22 discuss it in detail, such as,
- Reduce remaining timeout quota and pass it down each layer of the request processing chain.
- Be aware of the chained retry amplification (layer1 3 retries, layer2 3*3 retries, …).
后台任务。Almost every services, from software to even hardware/firmware, have backgroud tasks. Background task may temporarily slowdown the world. The most notorious one is GC (garbage collection，垃圾回收).
超负载运行。The customer may be sending you too many/big requests, and upper layer throttling is not working well. Overprovisioned customer VMs may compete with each other resulting slow experience. Some small piece of data may be extremly hot, e.g. many OS images are forked from a small shared base. A large request may be pegging your CPU/network/disk, and make the others queuing up. Or something went wrong, as a dead loop stuck your cpu.

缓解尾延迟

延迟可以分为low、middle和tail。控制和缓解延迟方法总结：

缓解low, middle部分：P提供更多资源、削减和并行化任务、消除 “head-of-line” 阻塞和缓存将有所帮助。这是我们应用于横向扩展分布式系统的常用技术。
缓解tail部分：基本思想是hedging。即使我们已经并行化了服务，最慢的实例也将决定我们的请求何时完成。您可以使用概率数学对组合延迟分布进行建模。
- 发送比必要更多的请求，只收集最快的返回，有助于减少尾部。Send 2 instread of 1. Send 11 instead of 10 (e.g. in erasure-coding 10 fragment reconstruct read). Send backup requests at 95% percentile latency.
- 金丝雀请求,，i.e. send normal requests but fallback to sending hedged requests if the canary did’t finish in reasonable time.
- 通常，较小的任务分区（微分区）将有助于实现更平滑的延迟分布百分位数。
- 减缓 head-of-line blocking. 少量开销较大的查询可能会增加大量并发开销较低的查询的延迟。Uniformly smaller tasks partitioning camn help.
- 处理超时
  - 首先尝试a non-block try 读取（读取但不等待），然后进行尽力读取（读取并等待超时）。
  - 当发现超时时，将相关资源标记为known slow。并告知其他请求绕过这个资源。
  - 要设置合适的超时值，我们可以设置为99.9% ，并动态调整它。任意超时值可能有害。
- 更细粒度的调度，甚至是平衡延迟和成本的管理框架。(e.g. Bing’s Kwiken, also attached below.)

监控

有两种监控指标：

Single operation
Percentile statistics

监控应该能够：

提供可以从用户请求入口跟踪到硬件操作的trace id
涵盖每个级别的细分
覆盖容易出问题的地方

有几个方面需要监控：

与故障直接相关的错误，例如虚拟机停止/重新启动
直接影响用户体验的超时错误计数和自动限制
Operation slowdown
典型的硬件性能，如CPU、网络、磁盘
提供从用户进入的跟踪、每个级别的细分以及最终到硬件的跟踪

其他参考资料

Latency Numbers Every Programmer Should Know: Give you the basic latency numbers of each level of a storage system
Disks for Data Centers: Google’s disk experience, which covers some aspect of disk tail latency.

[转帖]Tail Latency学习的更多相关文章

【转帖】Git学习笔记记录一下
本文内容参考了廖雪峰老师的博文,并做了适当整理,方便大家查阅. 原帖地址 https://wangfanggang.com/Git/git/ 常用命令仓库初始化 - git init 1 git i ...
[转帖]Hyperledger Fabric 学习一：简介
Hyperledger Fabric 学习一:简介 https://www.jianshu.com/p/f971858b70f3?utm_campaign=maleskine&utm_cont ...
[转帖]java基础学习总结——多态(动态绑定)
https://www.cnblogs.com/xdp-gacl/p/3644035.html 多态的概念 java基础学习总结——多态(动态绑定) 一.面向对象最核心的机制——动态绑定,也叫多态
开个帖，开始学习shell编程
恩,就这么开始了首先说一下这个小小的插曲...写着写着,它就崩溃了,然后我也崩溃了...崩溃的我到处找一个不会让我崩溃的工具,然后找来找去就找到了scribefire. 1. 关于从Command ...
科普帖：深度学习中GPU和显存分析
知乎的一篇文章: https://zhuanlan.zhihu.com/p/31558973 关于如何使用nvidia-smi查看显存与GPU使用情况,参考如下链接: https://blog.csd ...
[转帖]Google Chrome 解决 “您的连接不是私密连接”
Google Chrome 解决 “您的连接不是私密连接” 和被毒霸劫持自己搭建了 k8s的 dashboard 结果 chrome 最新版本的打不开了.. 百度了下园友的解决方案很完美这里面转 ...
Revisiting Network Support for RDMA
重新审视RDMA的网络支持本文为SIGCOMM 2018会议论文. 笔者翻译了该论文.由于时间仓促,且笔者英文能力有限,错误之处在所难免:欢迎读者批评指正. 本文及翻译版本仅用于学习使用.如果有任何 ...
史上最全面的Neo4j使用指南
Neo4j图形数据库教程 Neo4j图形数据库教程第一章:介绍 Neo4j是什么 Neo4j的特点 Neo4j的优点第二章:安装 1.环境 2.下载 3.开启远程访问 4.测试第三章:CQL 1 ...
史上超全面的Neo4j使用指南
Create by yster@foxmail.com 2018-7-10 我的博客:https://blog.csdn.net/yueshutong123 W3Cschool文档:https://w ...
Neo4j图数据库从入门到精通
目录第一章:介绍 Neo4j是什么 Neo4j的特点 Neo4j的优点第二章:安装 1.环境 2.下载 3.开启远程访问 4.启动第三章:CQL 1.CQL简介 2.Neo4j CQL命令/条款 ...

随机推荐

Rasa初始化聊天机器人的配置
本文详细介绍了使用 rasa init 初始化聊天机器人项目的配置,包括 nlu.yml.rules.yml.stories.yml.test_stories.yml.config.yml.cre ...
云图说 | 华为云MCP多云容器平台，让您轻松灾备！
摘要:多云容器平台是华为云基于多年容器云领域实践经验和社区先进的集群联邦技术,提供的容器多云和混合云的解决方案. 多云容器平台(Multi-Cloud Container Platform,MCP)是 ...
用AI技术推动西安民俗文化，斗鱼超管团队有一套
摘要:AI成为传统文化发展的助推器,助力传统文化朝着大众化.数字化.个性化.精准化方向发展,赋予传统文化新的生机,延续传统文化新的生命."斗鱼团队"从五个方面进行阐述"纵 ...
物联网SIM卡和SIM卡真的不是一回事
办卡吗,兄弟? 物联网卡?相信大家第一反应都是一愣.大家听过银行卡.电话SIM卡.会员卡-等等,很多人可能都是第一次听说物联网卡.那它到底是个什么东东?它能干什么呢?今天就带大家一探究竟. 那在物联网 ...
云小课 | MRS基础入门之HDFS组件介绍
摘要:HDFS是MapReduce服务中的基础文件系统,全称为Hadoop的分布式文件系统(Hadoop Distributed File System),可支持实现大规模数据可靠的分布式读写. 本文 ...
正确理解c# default关键字
背景最近QA测试一个我开发的一个Web API时,我意识到之前对C#的default的理解一直是想当然的.具体情况是这样,这个API在某些条件下要返回模型的默认值,写法类似于下面这样 [HttpGe ...
台大李宏毅机器学习公开课2020版登陆B站
课程简介: 真正大师的课程往往都是免费的,诸如吴恩达,李飞飞等.不过大家应该对李宏毅老师也不陌生吧?很多机器学习初学者,首选李宏毅老师.毕竟中文授课,而且他讲课通俗易懂.课程案例生动有趣(还记得宝可梦 ...
WEB端播放华为海康大华视频方案
WEB端播放华为海康大华视频方案类似标题:谷歌浏览器播放华为海康大华视频方案方案以下方案相当于给需要播放视频的WEB系统做了一个专用的浏览器,通过专用浏览器的CS客户端组件播放视频,当然,这个专 ...
springboot 整合 ehcahe后，实现缓存数据应用关闭时序列化（磁盘持久化），重启再加载
ehcache使用很长时间了,但是却没有用到缓存数据序列化(C#中是这么个说法)与再加载.这次因为业务中需要对缓存数据进行临时存储并再加载使用,实现该功能的方式多种多样.既然ehcache有磁盘保存机 ...
POJ 1742 Coins（多重背包的可行性问题）
Description People in Silverland use coins.They have coins of value A1,A2,A3...An Silverland dollar. ...

[转帖]Tail Latency学习

什么导致了尾延迟

缓解尾延迟

监控

其他参考资料

[转帖]Tail Latency学习的更多相关文章

随机推荐

热门专题