在影响系统稳定性的各种因素中,慢 SQL 是相对比较致命的,可能会导致 CPU.LOAD 异常.系统资源耗尽.线上生产环境出现慢 SQL 往往有很多原因: 硬件问题.如网络速度慢,内存不足,I/O 吞吐量小,磁盘空间满等. 没有索引或者索引失效. 数据过多. DevOps 后没有专业的 DBA 对 SQL 代码进行 review,在项目初期没有对 SQL 的性能做很好的考量.严重的慢 SQL 发生后可能会拖垮整个数据库,对线上业务产生阻断性的风险.AHAS 流控降级提供了 SQL 级别的识别与防…
应用配置管理(Application Configuration Management,简称 ACM)是一款应用配置中心产品.基于ACM您可以在微服务.DevOps.大数据等场景下极大地减轻配置管理的工作量,同时保证配置的安全合规.ACM 有着丰富的使用场景,本文将介绍其在 AHAS 流控降级 中的应用. 什么是 AHAS 流控降级 AHAS 流控降级 是面向分布式服务架构的专业流量控制组件,主要以流量为切入点,从流量控制.熔断降级.系统保护等多个维度帮助您保障服务的稳定性,同时提供强大的聚合监…
工具下载链接:点这里.活动发布链接:点这里. 采用容器服务后,了解容器之间的关系及依赖是一个比较有挑战的问题.容器化改造后的实际架构模型可能与预想的架构存在较大的差异,架构师或系统运维人员需要精确地了解资源实例的构成和交互情况,存在一定的困难.其次,系统架构在动态演化过程中可能引入了一些不可靠的因素,比如弱依赖变强依赖.局部容量不足.系统耦合过重等,给系统的稳定性带了极大的安全隐患.所以我们每次在面对系统改造.业务大促.迁移上云以及稳定性治理工作之前,都会通过梳理架构图的方式,呈现系统架构中个组…
在分布式架构环境下,服务间的依赖日益复杂,可能没有人能说清单个故障对整个系统的影响,构建一个高可用的分布式系统面临着很大挑战. 7月17日,阿里云应用高可用服务AHAS 正式商用,包含架构感知.流控降级和故障演练三大独立的功能模块,可快速提高应用的高可用能力,解决分布式架构下的高可用难题. 直播回顾:点击这里专题页:点击这里 在分布式环境下,我们经常会遇到多样的组件和错综复杂的依赖关系,局部故障导致的错误放大,突发流量导致的瞬间拥塞,面对这些难题,我们通常会难以下手. 应用高可用服务AHAS 源…
在消息队列中,当消费者去消费消息的时候,无论是通过 pull 的方式还是 push 的方式,都可能会出现大批量的消息突刺.如果此时要处理所有消息,很可能会导致系统负载过高,影响稳定性.但其实可能后面几秒之内都没有消息投递,若直接把多余的消息丢掉则没有充分利用系统处理消息的能力.我们希望可以把消息突刺均摊到一段时间内,让系统负载保持在消息处理水位之下的同时尽可能地处理更多消息,从而起到“削峰填谷”的效果: ​ 上图中红色的部分代表超出消息处理能力的部分. 我们可以看到消息突刺往往都是瞬时的.不规律…
网关指南: https://help.aliyun.com/document_detail/29487.html?spm=5176.doc48835.6.550.23Oqbl 网关控制台: https://apigateway.console.aliyun.com/?spm=5176.doc42740.2.2.Q4z5ws#/cn-hangzhou/apis/list…
HBase可以支持百TB数据规模.数百万QPS压力下的毫秒响应,适用于大数据背景下的风控和推荐等在线场景.阿里云HBase服务了多家金融.广告.媒体类业务中的风控和推荐,持续的在高可用.低延迟.低成本方向上进行优化.目前单集群承诺可用性99.9%,SSD机型上可以做到请求毛刺99.5% < 50ms,以及新上线的表内冷热分离可以加速热数据访问性能.减少冷数据存储成本并且在API上对用户透明.为了进一步满足客户在可用性以及低延迟上的诉求,阿里云HBase将提供以主备架构为平台,以冗余.并发.隔离.…
AHAS是阿里云提供的应用高可用服务(Application High Availability Service)产品. 高可用这个关键词可以说是互联网及软件开发行业热度一直很高的词语了,阿里云推出的这款产品,如果你是开发人员,可能看名字就会被吸引. 目前产品是免费开通的,我们来体验一下. 首先登录阿里云(https://www.aliyun.com). 在[产品]菜单,选择开发运维->应用高可用服务: 或者在搜索框中输入:高可用 (ps:输入高.可用甚至AH都能搜索到,不过输入时有点卡顿,不知…
<高可用服务设计之二:Rate limiting 限流与降级> <nginx限制请求之一:(ngx_http_limit_conn_module)模块> <nginx限制请求之二:(ngx_http_limit_req_module)模块> <nginx限制请求之三:Nginx+Lua+Redis 对请求进行限制> <nginx限制请求之四:目录进行IP限制> <分布式限流之一:redis+lua 实现分布式令牌桶,高并发限流> 服务…
这篇文章主要介绍了阿里云的NoSQL存储服务OTS的应用分析,OTS作为阿里巴巴开发的NoSQL存储技术服务现已面向用户商业化,需要的朋友可以参考下. 1. 概要  OTS是构建在阿里云飞天分布式系统上的NoSQL存储服务,提供海量结构化数据的存储和实时访问.OTS以实例和表来组织数据,通过自动的数据分区和负载均衡技术,对应用提供规模(数据和访问)的无缝扩展.应用通过调用OTS API/SDK或者操作管理控制台来使用OTS服务.OTS服务具有以下几个主要的特点:  规模可扩展:OTS具备可扩展的…