摘要：使用 Redis 的开发者必看，吸取教训啊！

原文：Redis 的 KEYS 命令引起 RDS 数据库雪崩，RDS 发生两次宕机，造成几百万的资金损失
作者：陈浩翔

Fundebug经授权转载，版权归原作者所有。

最近的互联网线上事故发生比较频繁，2018 年 9 月 19 号顺丰发生了一起线上删库事件，在这里就不介绍了。

在这里讲述一下最近发生在我公司的事故，以及如何避免，并且如何处理优化。

间接原因还有很多，技术跟不上业务的发展，由每日百万量到千万级是一个大的跨进，公司对于系统优化的处理优先级不高，技术开发人手的短缺

第一次宕机

2018 年 9 月 13 号某个点，公司某服务化项目的 RDS 实例连接飙升，CPU 升到 100%，拒绝了其他应用的所有请求服务

整个过程如下：

监控报警，显示 RDS 的 CPU 使用率达到 80%以上，DBA 介入，准备 KILL 慢 SQL
1 分钟内，没有发现明显阻塞的 SQL，CPU 持续上升到 99%
5 分钟内，大量应用报警，并且拒绝服务，RDS 的监控显示出现大量慢 SQL，联系服务器数据库提供商进行协助
8 分钟内，进行数据库主备切换（业务会受损，但是也没办法，没有定位到问题）
9 分钟内，部分业务恢复，但是一些业务订单的回调消息堆积超过 20w，备库的 CPU 使用率也持续上升
15 分钟内，备库 CPU 使用率超过 97%，业务再次中断，进行切回主库，并进行限流
20 分钟内，关闭一些次要应用的流量入口
25 分钟内，主库 CPU 使用率恢复正常
30 分钟内，逐步开启关闭的限流应用
35 分钟内，所有应用恢复正常
接下来就是与服务器数据库提供商成立应急小组紧急优化可能出现的慢 SQL，虽然说可能解决了一些慢 SQL，但此次并没有定位到具体的问题，也就为几天后再次发生宕机事件埋下了伏笔

事故影响

某服务化项目服务不可用几十分钟，造成订单数减少几十万笔，损失百万资金。

原因分析

当时是没有定位到具体的原因的，但是下面的原因也是一部分可能引起宕机的情况。

某服务化项目的业务增速非常快，在高峰期，数据库 QPS 突破 35000，系统处于高负荷状态。

在高峰期如果同时执行几个全表扫描的 SQL，会造成数据库压力急剧上升，应用超时增多，前端应用超时，用户重试，流量飙升，形成了雪崩效应。

主要原因在与一些老项目的 SQL 查询性能较差，并且使用的主库，对数据库影响较大。数据库 QPS 太高，但是缓存方案因为人手原因一直没有落地，慢 SQL 的问题处理优先级应该提升

改进方案

针对每个应用建一个数据库账号，严格按照规范使用
缓存优化方案即时落地，慢 SQL 问题优先处理，集中处理目前已经发现的慢 SQL（查询时间超过 1S）
升级数据库配置
迁移非核心业务到新的 RDS 实例中去

第二次宕机

由于上一次的宕机原因未找到，所以此次的宕机是可以预见的。

2018 年 9 月 19 号，还是一样的”配方”，还是原来的”味道”。同一个 RDS，CPU 飙升至 100%，接下来就是拒绝服务，宕机。当然，有了第一次的经验，直接主从切换，在几十秒左右就恢复了所有业务，但还是严重影响了公司的业务和形象。

原因分析

恢复业务后，公司紧急召开了紧急事故研究会议，当然，我的级别是参与不了的。公司的高管，高层技术架构、DBA、各个项目的主负责人一起进行了会议。

在此次会议中，经过查看各个项目的日志，后台的监控数据，发现在那台 RDS 数据库 CPU 飙升时，有一台 Redis 数据库内存将近 100%，然后急剧下降。联系第一次的宕机情况，也是类似的。

接下来就是联系服务器数据库提供商，将那台 Redis 最近一周的命令全部调用出来，最后发现，在那个时间点运行了一条keys *...*命令。公司的一个工程师执行 keys 模糊的匹配命令是为了清理没用的键，但是没有考虑到keys *进行模糊匹配引发 Redis 锁，造成 Redis 锁住，CPU 飙升，引起了所有调用链路的超时并且卡住，等 Redis 锁的那几秒结束，所有的请求流量全部请求到 RDS 数据库中，使数据库产生了雪崩，使数据库宕机。

改进方案

所有线上操作，全部要经过运维通过后方可执行，运维部门逐步快速收回各项权限
新增 Redis 实例，进行分离
如果有使用类似 keys 正则命令需求，使用 scan 命令代替

总结

该事件中出现的两次事故，完全是由于人为操作引起的，如果那位工程师，看过 Redis 的开发规范，会发现是建议禁用 keys 命令的。另外，有线上的命令操作，一定要经过运维评估后方可进行操作，估计那个工程师是老员工吧，有权限，然后直接就进行操作了。

另外，公司的业务发展确实很快，技术跟不上，这是非常非常危险的，极大的增加了宕机的概率。

在业务量不大的情况下，那位工程师的操作是完全没什么问题的，毕竟并发也不大，但是现在，随着公司的发展，业务量的成倍成倍增加，技术的扩展却没有随着增长那么快。

公司的技术人手不足也是一方面，绝大多数人都是边维护老项目边做新功能，但是对于项目的重构优化，人手却少了很多，项目优化的优先级不高，这也是很大的一个原因，极有可能出现类似的情况，新服务化构建迫在眉睫。

最后的最后，线上操作的任何一条命令，再小心也不为过，因为由于你的一个符号而引起的事故可能是你所承担不起的。

Redis 开发建议

最后附上 Redis 的一些开发规范和建议

1. 冷热数据分离，不要将所有数据全部都放到 Redis 中

虽然 Redis 支持持久化，但是 Redis 的数据存储全部都是在内存中的，成本昂贵。建议根据业务只将高频热数据存储到 Redis 中【QPS 大于 5000】，对于低频冷数据可以使用 MySQL/ElasticSearch/MongoDB 等基于磁盘的存储方式，不仅节省内存成本，而且数据量小在操作时速度更快、效率更高！

2. 不同的业务数据要分开存储

不要将不相关的业务数据都放到一个 Redis 实例中，建议新业务申请新的单独实例。因为 Redis 为单线程处理，独立存储会减少不同业务相互操作的影响，提高请求响应速度；同时也避免单个实例内存数据量膨胀过大，在出现异常情况时可以更快恢复服务！在实际的使用过程中，redis 最大的瓶颈一般是 CPU，由于它是单线程作业所以很容易跑满一个逻辑 CPU，可以使用 redis 代理或者是分布式方案来提升 redis 的 CPU 使用率。

3. 存储的 Key 一定要设置超时时间

如果应用将 Redis 定位为缓存 Cache 使用，对于存放的 Key 一定要设置超时时间！因为若不设置，这些 Key 会一直占用内存不释放，造成极大的浪费，而且随着时间的推移会导致内存占用越来越大，直到达到服务器内存上限！另外 Key 的超时长短要根据业务综合评估，而不是越长越好！

4. 对于必须要存储的大文本数据一定要压缩后存储

对于大文本【+超过 500 字节】写入到 Redis 时，一定要压缩后存储！大文本数据存入 Redis，除了带来极大的内存占用外，在访问量高时，很容易就会将网卡流量占满，进而造成整个服务器上的所有服务不可用，并引发雪崩效应，造成各个系统瘫痪！

5. 线上 Redis 禁止使用 Keys 正则匹配操作

Redis 是单线程处理，在线上 KEY 数量较多时，操作效率极低【时间复杂度为 O(N)】，该命令一旦执行会严重阻塞线上其它命令的正常请求，而且在高 QPS 情况下会直接造成 Redis 服务崩溃！如果有类似需求，请使用 scan 命令代替！

6. 可靠的消息队列服务

Redis List 经常被用于消息队列服务。假设消费者程序在从队列中取出消息后立刻崩溃，但由于该消息已经被取出且没有被正常处理，那么可以认为该消息已经丢失，由此可能会导致业务数据丢失，或业务状态不一致等现象发生。

为了避免这种情况，Redis 提供了 RPOPLPUSH 命令，消费者程序会原子性的从主消息队列中取出消息并将其插入到备份队列中，直到消费者程序完成正常的处理逻辑后再将该消息从备份队列中删除。同时还可以提供一个守护进程，当发现备份队列中的消息过期时，可以重新将其再放回到主消息队列中，以便其它的消费者程序继续处理。

7. 谨慎全量操作 Hash、Set 等集合结构

在使用 HASH 结构存储对象属性时，开始只有有限的十几个 field，往往使用 HGETALL 获取所有成员，效率也很高，但是随着业务发展，会将 field 扩张到上百个甚至几百个，此时还使用 HGETALL 会出现效率急剧下降、网卡频繁打满等问题【时间复杂度 O(N)】,此时建议根据业务拆分为多个 Hash 结构；或者如果大部分都是获取所有属性的操作,可以将所有属性序列化为一个 STRING 类型存储！同样在使用 SMEMBERS 操作 SET 结构类型时也是相同的情况！

8. 根据业务场景合理使用不同的数据结构类型

目前 Redis 支持的数据库结构类型较多：字符串（String），哈希（Hash），列表（List），集合（Set），有序集合（Sorted Set）, Bitmap, HyperLogLog 和地理空间索引（geospatial）等,需要根据业务场景选择合适的类型。

常见的如：String 可以用作普通的 K-V、计数类；Hash 可以用作对象如商品、经纪人等，包含较多属性的信息；List 可以用作消息队列、粉丝/关注列表等；Set 可以用于推荐；Sorted Set 可以用于排行榜等！

9. 命名规范

虽然说 Redis 支持多个数据库（默认 32 个，可以配置更多），但是除了默认的 0 号库以外，其它的都需要通过一个额外请求才能使用。所以用前缀作为命名空间可能会更明智一点。

另外，在使用前缀作为命名空间区隔不同 key 的时候，最好在程序中使用全局配置来实现，直接在代码里写前缀的做法要严格避免，这样可维护性实在太差了。

如：系统名:业务名:业务数据:其他

但是注意，key 的名称不要过长，尽量清晰明了，容易理解，需要自己衡量

10. 线上禁止使用 monitor 命令

禁止生产环境使用 monitor 命令，monitor 命令在高并发条件下，会存在内存暴增和影响 Redis 性能的隐患

11. 禁止大 string

核心集群禁用 1mb 的 string 大 key(虽然 redis 支持 512MB 大小的 string)，如果 1mb 的 key 每秒重复写入 10 次，就会导致写入网络 IO 达 10MB;

12. redis 容量

单实例的内存大小不建议过大，建议在 10~20GB 以内。redis 实例包含的键个数建议控制在 1kw 内，单实例键个数过大，可能导致过期键的回收不及时。

13. 可靠性

需要定时监控 redis 的健康情况：使用各种 redis 健康监控工具，实在不行可以定时返回 redis 的 info 信息。客户端连接尽量使用连接池（长链接和自动重连）。

Redis的KEYS命令引起宕机事件的更多相关文章

redis中keys命令带来的线上性能问题
起因下午接到运维反馈,生产redis有个执行keys的命令请求太慢了,要两三秒才能响应涉及命令如下: KEYS ttl_600::findHeadFootData-15349232-*-head ...
由Redis的hGetAll函数所引发的一次服务宕机事件
昨晚通宵生产压测,终于算是将生产服务宕机的原因定位到了,心累.这篇博客,算作一个复盘和记录吧... 先来看看Redis的缓存淘汰算法思维导图: 说明:当实际占用的内存超过Redis配置的maxmemo ...
Redis 的 KEYS 命令不能乱用啊
KESY 命令时间复杂度: O(N) , 假设Redis中的键名和给定的模式的长度有限的情况下,N为数据库中key的个数. Redis Keys 命令用于查找所有符合给定模式 pattern 的 k ...
Redis 日志篇：无畏宕机快速恢复的杀手锏
特立独行是对的,融入圈子也是对的,重点是要想清楚自己向往怎样的生活,为此愿意付出怎样的代价. 我们通常将 Redis 作为缓存使用,提高读取响应性能,一旦 Redis 宕机,内存中的数据全部丢失,假如 ...
关于redis的keys命令的性能问题
KEYS pattern 查找所有符合给定模式 pattern 的 key . KEYS * 匹配数据库中所有 key . KEYS h?llo 匹配 hello , hallo 和 hxllo 等. ...
HBase–RegionServer宕机恢复原理
Region Server宕机总述 HBase一个很大的特色是扩展性极其友好,可以通过简单地加机器实现集群规模的线性扩展,而且机器的配置并不需要太好,通过大量廉价机器代替价格昂贵的高性能机器.但也正因 ...
[文章]Linux宕机故障分析案例
[文章]Linux宕机故障分析案例已采纳收藏  0  1669 0 马化辉 2018-07-01发布背景在Linux系统环境下,服务器宕机发生的频率比较小,但是不少工程师或多或少都会遇到这 ...
（转）从史上八大MySQL宕机事故中学到的经验
一.Percona网站宕机事件震级:3 发生时长:2011年7月11日持续时长:数日地点:加州Pleasanton(幸福屯) 宕机原因:Percona网站主服务器上的3块硬盘损坏,同时因为人员变 ...
MySQL - 高可用性：少宕机即高可用？
我们之前了解了复制.扩展性,接下来就让我们来了解可用性.归根到底,高可用性就意味着 "更少的宕机时间". 老规矩,讨论一个名词,首先要给它下个定义,那么什么是可用性? 1 什么是可 ...

随机推荐

VS2013配置OPENCV2.4.9
转载自->这里设置opencv SDK解压目录,点击Extract后解压我是习惯于解压到这个位置的. 解压过程如上图. 2. 文件目录介绍解压后会在目录下生成opencv的 ...
32位系统和x86的关系？
32位操作系统针对32位CPU设计,cpu的位是指一次性可处理的数据量是多少,也等于寻址空间的大小或是通用寄存器的大小,一般数据总线的宽度也和cpu位数相同,但也有例外(如8088数据总线宽度为8然而 ...
2017.07.14【NOIP提高组】模拟赛B组
Summary 这次比赛因为迟到了,少了很多时间,也受到了相应的惩罚,这是好的,是个标记牌,警醒着我.这次比赛的题目很难,也就是说,大家的得分都很低,总的来说,收获还是很大的,因为有非常多的技巧被掌握 ...
cs331n 线性分类器损失函数与最优化
tip:老师语速超快...痛苦= = 线性分类器损失函数与最优化 \(Multiclass SVM loss: L_{i} = \sum_{j \neq y_{i}} max(0,s_{i}-s_{y ...
JSP(4)—Cookie创建及简单案例(自动登录)
Cookie的创建: 创建一个JSP页面,第一次访问时显示没有Cookie,正在创建,再次访问就会自动显示cookie的名称,并设置cookie过期时间 <% //在javaweb规范中使用Co ...
常见问题1：默认div隐藏，点击按钮时出现，再点击时隐藏。
例:默认div隐藏,点击按钮时出现,再点击时隐藏. <a href="#" onclick="f('ycbc')"; >控制按钮</a> ...
JavaScript字符串API
String.prototype.anchor() anchor()方法用于创建一个<a>html描元素 const str = '我是html内容'.anchor('我是name属性值' ...
Android Studio 安装与设置
http://www.cnblogs.com/abao0/p/6934127.html
超好用的Vim配置
https://github.com/ma6174/vim-deprecated 简易安装方法: 打开终端,执行下面的命令就自动安装好了: wget -qO- https://raw.github.c ...
centos修改主机名 root@后面的名字
阿里云买的新的ESC,名字都是一串字符,不利于平时使用.我们可以重命名主机来标记. centos6 [root@centos6 ~]$ hostname # 查看当前的hostnmae centos6 ...

Redis的KEYS命令引起宕机事件

摘要： 使用 Redis 的开发者必看，吸取教训啊！