转:一篇讲线上优化查 CPU的脚本

【转:一篇讲线上优化查 CPU的脚本】的更多相关文章

转:一篇讲线上优化查 CPU的脚本

原文链接:https://my.oschina.net/leejun2005/blog/1524687 摘要: 本文主要针对 Java 服务而言 0.背景经常做后端服务开发的同学,或多或少都遇到过 CPU 负载特别高的问题.尤其是在周末或大半夜,突然群里有人反馈线上机器负载特别高,不熟悉定位流程和思路的同学可能登上服务器一通手忙脚乱,定位过程百转千回. 对此,也有不少同学曾经整理过相关流程或方法论,类似把大象放进冰箱要几步,传统的方案一般是4步: top oder by with P:10…

一次线上服务高 CPU 占用优化实践（转）

线上有一个非常繁忙的服务的 JVM 进程 CPU 经常跑到 100% 以上,下面写了一下排查的过程.通过阅读这篇文章你会了解到下面这些知识. Java 程序 CPU 占用高的排查思路可能造成线上服务大量异常的 log4j 假异步 Kafka 异步发送的优化 On-CPU 火焰图的原理和解读使用 Trie 前缀树来优化 Spring 的路径匹配开始尝试 JVM CPU 占用高,第一反应是找出 CPU 占用最高的线程,看这个线程在执行什么,使用 top 命令可以查看进程中所有线程占用的 CPU…

Iceberg学习日记(1) 定位两个线上Iceberg查不到文件的问题

前言 Iceberg是我们去年年底(2020)开始调研,目前上线了130多张表.主要用于流量日志清洗,数据报表,推荐特征基础数据.至今为也算是积累了一些使用及定位问题经验. 这篇文章会介绍两个线上Iceberg表查不到数据/快照文件的问题,希望对大家有帮助. 一.Rewrite操作有可能会误删数据文件现象: 如图: 线上一张Iceberg表的合并任务运行一段时间后开始报错找不到数据文件. 当时找到运维查看删文件的用户和机器,定位出来是合并文件程序所在的机器.最后在合并任务日志中发现了这个异…

一个线上JVM的CPU资源占用过高问题的排查

原文:https://www.iteye.com/blog/tyrion-2293369 上午线上某应用的一台JVM的CPU占比突然飙高到192%,并且一直下不来,导致监控一直告警,好久没处理这种问题了,现在将问题排查步骤总结记录一下. 1.通过top命令查看当前机器的CPU使用情况此时发现如果是Java的进程占用过高,并且一直下不来,则排查是什么线程导致占比过高.以图中进程举例,假如发现PID为31357的Java进程占CPU比一直很高,则记录下它的PID 2.查看Java进程里面的线程的占…

一次线上redis实例cpu占用率过高问题优化（转）

前情提要: 最近接了大数据项目的postgresql运维,刚接过来他们的报表系统就出现高峰期访问不了的问题,报表涉及实时数据和离线数据,离线读pg,实时读redis.然后自然而然就把redis也挪到我们这边优化了 -_-! .在这次优化过程中也是再次深刻感受到redis的各种坑现象: 大数据报表周末晚上高峰期实时报表打不开,基本上处于不能使用状态,实时报表主要访问redis数据,监控发现Redis CPU占用过高,高峰期2个从库实例的CPU达到100%,由于redis是单进程单线程结构,所以单…

记一次线上 OOM 和性能优化

大家好,我是鸭血粉丝(大家会亲切的喊我「阿粉」),是一位喜欢吃鸭血粉丝的程序员,回想起之前线上出现 OOM 的场景,毕竟当时是第一次遇到这么紧脏的大事,要好好记录下来. 1 事情回顾在某次周五,通过 Grafana 监控,发现线上环境突然出现CPU和内存飙升的情况: 但是看到网络输出和输入流量都不是很高,所以网站被别人攻击的概率不高,后来其它服务器的负荷居高不下. 阿粉先 dump 下当时的堆栈信息,保留现场,接着进行了简单的分析,为了稳住用户,通知运维一台一台服务器进行重新启动,让大家…

线上Storm的worker，executor，task参数调优篇

问题引入: 线上最近的数据量越来越大,出现了数据处理延迟的现象,观察storm ui的各项数据,发现有大量的spout失败的情况,如下: ---------------------------------------------------------------------------------------------------------------------------------------------------------------- 然后根据storm并发度的一些理论,进行…