【Redis实战专题】「性能监控系列」全方位探索Redis的性能监控以及优化指南
Redis基本简介
Redis是一个开源(BSD 许可)、内存存储的数据结构服务器,可用作数据库,高速缓存和消息队列代理。它支持字符串、哈希表、列表、集合、有序集合等数据类型。内置复制、Lua 脚本、LRU收回、事务以及不同级别磁盘持久化功能,同时通过 Redis Sentinel 提供高可用,通过Redis Cluster提供自动分区。
Redis监控指标
Redis本身提供的INFO命令会返回丰富的实例运行监控信息,这个命令是Redis监控工具的基础。总体INFO命令的返回信息分成以下5大类。
- 性能指标:Performance
- 内存指标: Memory
- 基本活动指标:Basic activity
- 持久性指标: Persistence
- 错误指标:Error
Redis基本的监控命令—INFO 命令
INFO命令在使用时,可以带一个参数section,这个参数的取值有好几种,相应的,INFO 命令也会返回不同类型的监控信息。如下图所示:
在监控Redis 运行状态时,INFO命令返回的结果非常有用。如果你想了解 INFO 命令的所有参数返回结果的详细含义。可以根据Redis中文官方文档-Info质量以及Redis官方文档进行介绍说明。这里,我给你提几个运维时需要重点关注的参数以及它们的重要返回结果。
性能指标:Performance指令
无论你是运行单实例或是集群,我建议你重点关注一下stat 、commandstat 、cpu 和 memory 这四个参数的返回结果,这里面包含了命令的执行情况(比如命令的执行次数和执行时间、命令使用的 CPU资源),内存资源的使用情况(比如内存已使用量、内存碎片率),CPU 资源使用情况等,这可以帮助我们判断实例的运行状态和资源消耗情况。
info stats
当执行info stats
指令的时候所出现的效果:
分析的大多数结果
total_connections_received:1083173900
total_commands_processed:8313824390
instantaneous_ops_per_sec:271
total_net_input_bytes:1356487222784
total_net_output2bytes:2360788536838
instantaneous_input_kbps:13.49
instantaneous_output_kbps:1.84
rejected_connections: 0
基础的相关的数据信息统计
- total_connections_received:主要用于统计累计的接收的总体连接数。
- total_commands_processed:主要用于统计累计的命令的处理指令数量。
- instantaneous_ops_per_sec:瞬时的每秒的请求数量,主要用于跟踪已处理命令的吞吐量对于诊断Redis实例中高延迟的原因至关重要。
- total_net_input_bytes:主要用于统计网络输入的总体字节数
- total_net_output_bytes:主要用于统计网络输出的总体字节数
- instantaneous_input_kbps:瞬时的较高的输入的kb指。
- instantaneous_output_kbps:瞬时的较高的输出的kb指。
- rejected_connections:被总体的拒接的连接数量。
持久性指标: Persistence
当你启用RDB或AOF功能时,你就需要重点关注下 persistence 参数的返回结果,你可以通过它查看到 RDB 或者 AOF 的执行情况。总体介绍一下持久化相关的监控信息,如下图所示:
RDB相关的信息统计
- rdb_changes_since_last_save:24455275 - 表明上次RDB保存以后改变的key次数
- rdb_bgsave_in_progress:0 - 表示当前是否在进行bgsave操作。是为1
- rdb_last_save_time:1673341911 - 上次保存RDB文件的时间戳
- rdb_last_bgsave_status:ok - 上次保存的状态
- rdb_last_bgsave_time_sec:9 - 上次保存的耗时
- rdb_current_bgsave_time_sec:-1 - 目前保存RDB文件已花费的时间
- rdb_last_cow_size:11120640 -
AOF相关的信息统计
文件状态监控相关的参数
- aof_enabled : 一个标志值,记录了 AOF 是否处于打开状态,1代表打开。
- aof_rewrite_in_progress : 一个标志值,记录了服务器是否正在创建AOF文件。
- aof_rewrite_scheduled : 一个标志值,记录了在 RDB 文件创建完毕之后,是否需要执行预约的 AOF 重写操作。
- aof_last_rewrite_time_sec : 最近一次创建 AOF 文件耗费的时长。
- aof_current_rewrite_time_sec : 如果服务器正在创建 AOF 文件,那么这个域记录的就是当前的创建操作已经耗费的秒数。
- aof_last_bgrewrite_status : 一个标志值,记录了最近一次创建 AOF 文件的结果是成功还是失败。
info clients
主要标识已连接客户端的信息,它包含以下域:
connected_clients:406
client_recent_max_input_buffer:4
client_recent_max_output_buffer:0
blocked_clients:40
针对于客户端的相关的结果信息介绍说明:
- connected_clients : 已连接客户端的数量(不包括通过从属服务器连接的客户端)
- client_longest_output_list : 当前连接的客户端当中,最长的输出列表
- client_longest_input_buf : 当前连接的客户端当中,最大输入缓存
- blocked_clients : 正在等待阻塞命令(BLPOP、BRPOP、BRPOPLPUSH)的客户端的数量
info commandstats
主要用于统计相关的命令指令的执行速度以及相关的指令执行频率。
部分记录了各种不同类型的命令的执行统计信息,比如命令执行的次数、命令耗费的 CPU 时间、执行每个命令耗费的平均 CPU 时间等等。对于每种类型的命令,这个部分都会添加一行以下格式的信息:
cmdstat_multi:calls=2792,usec=188,usec_per_call=0.07
- cmdstat_multi:代表着指令名称:cmdstat_指令名称
- calls:代表着指令执行次数
- usec:执行的指令时间(微秒)
- usec_per_call:每秒的调用次数,用于计算频次
info cpu
cpu 部分记录了 CPU 的计算量统计信息,它包含以下域:
- used_cpu_sys : Redis 服务器耗费的系统 CPU时间 。
- used_cpu_user : Redis 服务器耗费的用户 CPU时间 。
- used_cpu_sys_children : 后台进程耗费的系统 CPU时间 。
- used_cpu_user_children : 后台进程耗费的用户 CPU时间 。
user_cpu_sys 和user_cpu_sys_children
user_cpu_sys是Redis主进程消耗,user_cpu_sys_children是后台进程消耗(后台包括RDB文件的消耗,master,slave同步产生的消耗等等)
- user指的是指令在 用户态(User Mode)所消耗的CPU时间
- sys指的是指令在 核心态(Kernel Mode)所消耗的CPU时间。
发现这4个CPU指标是一个统计指标,比如used_cpu_sys是将所有Redis主进程在核心态所占用的CPU时间求和累计起来,所以它会随着Redis启动的时间长度不断累计上升,并在你重启Redis服务后清0。
info memory
memory 部分记录了服务器的内存信息,它包含以下域
- used_memory : 由Redis分配器分配的内存总量,以字节(byte)为单位
- used_memory_human : 以用户可读的格式返回Redis分配的内存总量
- used_memory_rss : 从操作系统的角度,返回 Redis 已分配的内存总量(俗称常驻集大小)。这个值和 top 、 ps 等命令的输出一致。
- used_memory_peak : Redis的内存消耗峰值(以字节为单位)
- used_memory_peak_human : 以用户可读的格式返回 Redis 的内存消耗峰值
- used_memory_lua : Lua引擎所使用的内存大小(以字节为单位)
- mem_fragmentation_ratio : used_memory_rss 和 used_memory 之间的比率
- mem_allocator : 在编译时指定的, Redis 所使用的内存分配器。可以是 libc 、 jemalloc 或者 tcmalloc 。
在理想情况下, used_memory_rss 的值应该只比 used_memory 稍微高一点儿。
当 rss > used ,且两者的值相差较大时,表示存在(内部或外部的)内存碎片。
内存碎片的比率可以通过 mem_fragmentation_ratio 的值看出。
当 used > rss 时,表示Redis的部分内存被操作系统换出到交换空间了,在这种情况下,操作可能会产生明显的延迟。
当 Redis 释放内存时,分配器可能会,也可能不会,将内存返还给操作系统。如果 Redis 释放了内存,却没有将内存返还给操作系统,那么 used_memory 的值可能和操作系统显示的 Redis 内存占用并不一致。
基本活动指标:Basic activity
如果你在使用主从集群,就要重点关注下 replication 参数的返回结果,这里面包含了主从同步的实时状态。
info replication
主/从复制信息
role : 如果当前服务器没有在复制任何其他服务器,那么这个域的值就是 master ;否则的话,这个域的值就是 slave 。注意,在创建复制链的时候,一个从服务器也可能是另一个服务器的主服务器。
如果当前服务器是一个从服务器的话,那么这个部分还会加上以下域:
- master_host : 主服务器的 IP 地址。
- master_port : 主服务器的 TCP 监听端口号。
- master_link_status : 复制连接当前的状态, up 表示连接正常, down 表示连接断开。
- master_last_io_seconds_ago : 距离最近一次与主服务器进行通信已经过去了多少秒钟。
- master_sync_in_progress : 一个标志值,记录了主服务器是否正在与这个从服务器进行同步。
如果同步操作正在进行,那么这个部分还会加上以下域:
- master_sync_left_bytes : 距离同步完成还缺少多少字节数据。
- master_sync_last_io_seconds_ago : 距离最近一次因为 SYNC 操作而进行 I/O 已经过去了多少秒。
如果主从服务器之间的连接处于断线状态,那么这个部分还会加上以下域:
- master_link_down_since_seconds : 主从服务器连接断开了多少秒。
INFO 命令只是提供了文本形式的监控结果,并没有可视化,所以,在实际应用中,我们还可以使用一些第三方开源工具,将 INFO 命令的返回结果可视化。接下来,我要讲的 Prometheus ,就可以通过插件将 Redis 的统计结果可视化。
Prometheus的Redis-exporter监控
Prometheus监控体系
Prometheus是一套开源的系统监控报警框架。它的核心功能是从被监控系统中拉取监控数据,结合Grafana 工具,进行可视化展示。
监控数据
监控数据可以保存到时序数据库中,以便运维人员进行历史查询。同时,Prometheus 会检测系统的监控指标是否超过了预设的阈值,一旦超过阈值,Prometheus 就会触发报警。
对于系统的日常运维管理来说,这些功能是非常重要的。而Prometheus已经实现了使用这些功能的工具框架。我们只要能从被监控系统中获取到监控数据,就可以用 Prometheus 来实现运维监控。
Redis-exporter插件
Prometheus 正好提供了插件功能来实现对一个系统的监控,我们把插件称为 exporter ,每一个 exporter实际是一个采集监控数据的组件。exporter采集的数据格式符合 Prometheus 的要求,Prometheus 获取这些数据后,就可以进行展示和保存了。
Redis-exporter
Redis-exporter就是用来监控 Redis的,它将 INFO 命令监控到的运行状态和各种统计信息提供给 Prometheus,从而进行可视化展示和报警设置。目前,Redis-exporter 可以支持 Redis 2.0 至 6.0 版本,适用范围比较广。
除了获取 Redis 实例的运行状态,Redis-exporter 还可以监控键值对的大小和集合类型数据的元素个数,这个可以在运行 Redis-exporter 时,使用 check-keys 的命令行选项来实现。
此外,我们可以开发一 Lua 脚本,定制化采集所需监控的数据。然后,我们使用 scripts 命令行选项,让 Redis-exporter 运行这个特定的脚本,从而可以满足业务层的多样化监控需求。
Redis-stat 和Redis Live工具
Redis-exporter 相比,这两个都是轻量级的监控工具。它们分别是用 Ruby 和 Python 开发的,也是将 INFO 命令提供的实例运行状态信息可视化展示。虽然这两个工具目前已经很少更新了,不过,如果你想自行开发 Redis 监控工具,它们都是不错的参考。
【Redis实战专题】「性能监控系列」全方位探索Redis的性能监控以及优化指南的更多相关文章
- 前端监控系列4 | SDK 体积与性能优化实践
背景 字节各类业务拥有众多用户群,作为字节前端性能监控 SDK,自身若存在性能问题,则会影响到数以亿计的真实用户的体验.所以此类 SDK 自身的性能在设计之初,就必须达到一个非常极致的水准. 与此同时 ...
- redis实战笔记(10)-第10章 扩展Redis
本章主要内容 扩展读性能 扩展写性能以及内存容量 扩展复杂的查询 随着Redis的使用越来越多, 只使用一台Redis服务器没办法存储所有数据或者没办法处理所有读写请求的问题迟早都会出现, 这 ...
- redis实战笔记(1)-第1章 初识Redis
第1章 初识Redis 注:本书在redis3.0版本的,比如redis3.0以后支持服务端集群.3.0之前只能客户端分片. 本章主要内容 1.Redis与其他软件的相同之处和不同之处 2.Re ...
- redis实战笔记(2)-第2章 使用 Redis构建Web应用
第2章 使用 Redis构建Web应用 本章主要内容 1.登录cookie 2.购物车cookie 3.缓存生成的网页 4.缓存数据库行 5.分析网页访问记录 本章的所有内容都是围绕着发现并解 ...
- 【分布式技术专题】「OSS中间件系列」Minio的文件服务的存储模型及整合Java客户端访问的实战指南
Minio的元数据 数据存储 MinIO对象存储系统没有元数据数据库,所有的操作都是对象级别的粒度的,这种做法的优势是: 个别对象的失效,不会溢出为更大级别的系统失效. 便于实现"强一致性& ...
- 【SpringCloud技术专题】「Gateway网关系列」(3)微服务网关服务的Gateway全流程开发实践指南(2.2.X)
开发指南须知 本次实践主要在版本:2.2.0.BUILD-SNAPSHOT上进行构建,这个项目提供了构建在Spring生态系统之上API网关. Spring Cloud Gateway的介绍 Spri ...
- 【Netty技术专题】「原理分析系列」Netty强大特性之ByteBuf零拷贝技术原理分析
零拷贝Zero-Copy 我们先来看下它的定义: "Zero-copy" describes computer operations in which the CPU does n ...
- 「数据挖掘入门系列」Python快速入门
Python环境搭建 本次入门系列将使用Python作为开发语言.要使用Python语言,我们先来搭建Python开发平台.我们将基于Python 2.7版本.以及Python的开发发行版本Anaco ...
- 「美团面试系列」面试加分项,这样说你会JVM,面试官还能问什么
Java性能调优都是老生常谈的问题,特别当“糙快猛”的开发模式大行其道时,随着系统访问量的增加.代码的臃肿,各种性能问题便会层出不穷. 比如,下面这些典型的性能问题,你肯定或多或少都遇到过: 在进行性 ...
- ☕【难点攻克技术系列】「海量数据计算系列」如何使用BitMap在海量数据中对相应的进行去重、查找和排序
BitMap(位图)的介绍 BitMap从字面的意思,很多人认为是位图,其实准确的来说,翻译成基于位的映射,其中数据库中有一种索引就叫做位图索引. 在具有性能优化的数据结构中,大家使用最多的就是has ...
随机推荐
- 一天十道Java面试题----第二天(HashMap和hashTable的区别--------》sleep、wait、join)
这里是参考B站上的大佬做的面试题笔记.大家也可以去看视频讲解!!! 文章目录 11.HashMap和HashTable的区别及底层实现 12.ConcurrentHashMap原理简述,jdk7和jd ...
- BootStrap--selectpicker的使用
bootstrap-select,selectpicker 用法详细:通过官方文档翻译 用过selectpicker的都说好~但是网上中文的教程又找不到比较完整的用法,于是去官网看了下 顺便弄过来 ...
- C#中进行数值的比较
Equals的使用 str1.Equals(str2,StringComparison.OrdinalIgnoreCase); ----比较str1和str2 StringComp ...
- element-ui el-table 高度自适应
element-ui el-table 高度自适应 <div ref="searchHeader" class="div_search search_title& ...
- HPL Study 2
1.并行编程 (1)并行程序的逻辑: 1)将当前问题划分为多个子任务 2)考虑任务间所需要的通信通道 3)将任务聚合成复合任务 4)将复合任务分配到核上 (2)共享内存编程: 路障 ----> ...
- Codeforces Global Round 18 B. And It's Non-Zero(按位前缀和)
题目大意:求一段数(l到r)的按位与结果不为零需要删除中间元素的最小个数 思路:按位与使得结果不为0只要有某一位全是1即可,所以只要统计每一位1的个数,用总个数减去1的个数就是某一位0的个数 删除包含 ...
- mybatis实现数据行级权限拦截
最近在做一个测试平台,其中有一个需求是用户只能看到他有权限的项目数据.一开始这个需求只针对用例模块,我直接在sql后面加上了关联项目权限表.后面因为其他模块也需要这个权限判断,故打算把关联sql抽取出 ...
- 系统启动后bond配置不生效问题定位
背景描述 为了适配新功能,裸金属服务的磁盘镜像中做了如下修改: dracut添加network, iscsi模块 grub添加rd.iscsi.firmware=1参数 删除网卡配置文件/etc/sy ...
- 如何查看mysql数据目录位置
mysql> show global variables like "%datadir%"; +---------------+-----------------+ | Va ...
- FIT软件开发
1.baidu,google 术和道 2.FIT: future integrated Technology 3.集体检视 > commiter 4.高内聚,低耦合 => 太极 => ...