kafka集群under replicated分析

近期随着业务消息量增大，现网几套kafka集群频繁收到under repliacted告警，集合近期定位分析过程，主要有以下几个方面：

1. 查看是否有主机挂掉，或近期是否有主机重启，通过kafdrop查看started时间，若有异常重启，需要分析日志定位原因；

2. 使用kafdrop可以对分区副本情况进行排查，若发现大部分under replicated的分区都与某个broker上的副本有关，则很可能是broker的问题，可以重点分析下server.log和controller.log

3. 消息量大导致broker间同步消息瓶颈，由于默认副本同步线程数num.replica.fetchers=5，所以针对消息量大或者消息体较大的场景，可以适当调高该配置；

4. CPU负载：检查CPU负载，检查软中断均衡是否开启，消息量大的场景建议开启软中断均衡，但是软中断开启均衡后可能加剧CPU的负载，因为CPU用于单块CPU用于上下文切换的时间减少了，如果请求量足够，会放通更多的请求进来，TPS进一步增加，若CPU持续高于40%，建议扩容CPU，或者增加扩容broker节点数并rebalance topic数据，或者新建集群迁移部分topic过去；

5.磁盘负载：

   a. 使用top查看wa占用CPU的百分比，如果该占比长时间大于5%，则需要考虑优化；

   b. 使用iostat -x 1查看磁盘io状态，util%为操作的时间占比，长时间接近100%说明磁盘满负荷工作，需要优化，svctm是平均每次io操作的服务时间，await是平均每次io操作的等待时间（包括服务时间），如果两者接近，则io几乎没有等待，如果await远大于svctm，则说明IO队列太长，应用得到响应变慢；

   c. 磁盘故障，需要优化磁盘监控，版本优化，支持坏盘自动剔除；

   可以考虑更换更快的磁盘；增加磁盘数量，动态新增log.dirs并均衡数据，提高并发度；调整内核elevator算法；优化应用；升级CPU等；

6. 内存负载： kafka使用堆外内存来缓存pagecache，增加发送和消费的性能，大部分内存会被cache掉，内存瓶颈很少遇到；

7. 网卡负载：目前大部分主流机器都是万兆网卡起步了，网卡瓶颈的案例现网较少遇到，但还是发生过，某些TPS高伴随消息体大的业务，会大大消耗磁盘和网卡的性能，可以网卡发送、接受的buffer情况，通过netstat -an | grep 9092 查看3、4列，如果持续堆积较大，则存在网卡瓶颈，跨机房场景出现网卡瓶颈要多一些，也可以结合netstat -s 和ss -s一起分析丢包情况；

8. 查看进程gc情况，jstat -gcutil pid 1000，若gc较频繁，考虑增加堆内存大小；

提升：

1. 使用netstat -s 、ss -s分析问题能力

2. kafka socket buffer配置调优

3. 磁盘监控，dmesg分析问题
————————————————
版权声明：本文为CSDN博主「所长是我呦」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/ggh5201314/article/details/89298523

kafka集群under replicated分析的更多相关文章

ELK+Kafka集群日志分析系统
ELK+Kafka集群分析系统部署因为是自己本地写好的word文档复制进来的.格式有些出入还望体谅.如有错误请回复.谢谢! 一. 系统介绍 2 二. 版本说明 3 三. 服务部署 3 1) JDK部 ...
(一个）kafka-jstorm集群实时日志分析它 ---------kafka实时日志处理
package com.doctor.logbackextend; import java.util.HashMap; import java.util.List; import java.util. ...
kafka集群partition分布原理分析
1. Kafka集群partition replication默认自动分配分析下面以一个Kafka集群中4个Broker举例,创建1个topic包含4个Partition,2 Replication ...
kafka集群原理介绍
目录 kafka集群原理介绍 (一)基础理论二.配置文件三.错误处理 kafka集群原理介绍 @(博客文章)[kafka|大数据] 本系统文章共三篇,分别为 1.kafka集群原理介绍了以下几个方 ...
Kafka 集群在马蜂窝大数据平台的优化与应用扩展
马蜂窝技术原创文章,更多干货请订阅公众号:mfwtech Kafka 是当下热门的消息队列中间件,它可以实时地处理海量数据,具备高吞吐.低延时等特性及可靠的消息异步传递机制,可以很好地解决不同系统间数 ...
Kafka集群的安装和使用
Kafka是一种高吞吐量的分布式发布订阅的消息队列系统,原本开发自LinkedIn,用作LinkedIn的活动流(ActivityStream)和运营数据处理管道(Pipeline)的基础.现在它已被 ...
Kafka【第一篇】Kafka集群搭建
Kafka初识 1.Kafka使用背景在我们大量使用分布式数据库.分布式计算集群的时候,是否会遇到这样的一些问题: 我们想分析下用户行为(pageviews),以便我们设计出更好的广告位我想对用户 ...
Kafka集群部署
一. 关于kafka Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据. 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键 ...
HyperLedger Fabric基于zookeeper和kafka集群配置解析
简述在搭建HyperLedger Fabric环境的过程中,我们会用到一个configtx.yaml文件(可参考Hyperledger Fabric 1.0 从零开始(八)--Fabric多节点集群 ...
Kafka相关内容总结（Kafka集群搭建手记）
简介 Kafka is a distributed,partitioned,replicated commit logservice.它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是 ...

随机推荐

vulnhub靶场之FUNBOX: GAOKAO
准备: 攻击机:虚拟机kali.本机win10. 靶机:Funbox: GaoKao,下载地址:https://download.vulnhub.com/funbox/FunboxGaoKao.ova ...
vivo 超大规模消息中间件实践之路
作者:vivo 互联网存储技术团队-Luo Mingbo.中间件团队- Liu Runyun 本文根据"2022 vivo开发者大会"现场演讲内容整理而成. 本文主要介绍超大数据规 ...
同类型芯片资源对比-CH32x芯片快速应用说明
CH32Fx 系列芯片是基于 Cortex-M3 内核设计的微控制器,所以与大部分 ARM 工具和软件兼容. 此外,其外设和硬件设计兼容市场上一些主流微控制器,并在性能和功能上有所增强, 方便用户快速 ...
springBoot简单记录日志
记录日志的几种方法 springboot项目内置日志框架在配置文件中添加以下配置: logging: file: name: "./log/xxx.log" pattern: f ...
MySQL软件安装教程（windows系统）
目录一.访问官网下载安装包 1.访问官网 2.点击DOWNLOADS 3.下拉页面,点击MySQL Community (GPL) Downloads » 4.接着点击MySQL Community ...
Pycharm中图标的含义
Pycharm中图标的含义问题有同学问,下面的v,c,f等都是啥意思这个问题嘛,应该在python学习阶段来问,不过我也只能解释部分,有些也只能靠猜测按图索骥找了下pycharm的官网doc, ...
聊聊火热的 ChatGPT（我帮大伙问了几个比较关心的问题）
如需要转载,请声明原文链接微信公众号「ENG八戒」https://mp.weixin.qq.com/s/L9tZy_KWnE1kf0E3HNhJhQ 本文大概 2562 个字,阅读需花 15 分钟内 ...
.NET 中的并发编程
今天我们购买的每台电脑都有一个多核心的 CPU,允许它并行执行多个指令.操作系统通过将进程调度到不同的内核来发挥这个结构的优点.然而,还可以通过异步 I/O 操作和并行处理来帮助我们提高单个应用程序的 ...
Ajax局部修改页面使用html()内置标签
今天在写javaweb项目时遇到的一个小问题,在Ajax修改页面时,需要修改一串文字同时部分修改样式, 在对比了text()和html()后,在此记录 text:(无法内嵌标签) html:(可以内嵌 ...
树莓派UBUNTU MATE 自动登录用户
1.sudo vim /usr/share/lightdm/lightdm.conf.d/60-lightdm-gtk-greeter.conf 2.添加autologin-user=youruser ...

kafka集群under replicated分析

kafka集群under replicated分析的更多相关文章

随机推荐

热门专题