【原创】大叔问题定位分享（14）Kylin频繁OOM问题

【【原创】大叔问题定位分享（14）Kylin频繁OOM问题】的更多相关文章

【原创】大叔问题定位分享（14）Kylin频繁OOM问题

公司一个kylin集群,每到周二下午就会逐个节点OOM退出,非常有规律,kylin集群5个节点,每个节点分配的内存已经不断增加到70多G,但是问题依旧: 经排查发现,每周二下午kylin集群的请求量确实会多一些,有可能是kylin的bug,也可能是其他原因,当节点kylin进程内存占用上升时,打印线程堆栈发现,有很多线程都被卡住,synchronized,各种Manager,比如CubeManager.DictionaryManager.MetadataManager,以MetadataMana…

【原创】大叔问题定位分享（13）HBase Region频繁下线

问题现象:hive执行sql报错 select count(*) from test_hive_table; 报错 Error: java.io.IOException: org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed after attempts=36, exceptions: Wed May 16 10:22:17 CST 2018, null, java.net.SocketTimeoutException:…

【原创】大叔问题定位分享（1）HBase RegionServer频繁挂掉

最近hbase集群很多region server挂掉,查看其中一个RegionServer1日志发现,17:17:14挂的时候服务器压力很大,有大量的responseTooSlow,也有不少gc,但是当时内存还有很多剩余,不是因为oom被kill 2018-03-13T17:17:13.372+0800: [GC (Allocation Failure) 2018-03-13T17:17:13.372+0800: [ParNew: 3280066K->256481K(3762880K), 0.0…

【原创】大叔问题定位分享（11）Spark中对大表子查询加limit为什么会报Broadcast超时错误

当两个表需要join时,如果一个是大表,一个是小表,正常的map-reduce流程需要shuffle,这会导致大表数据在节点间网络传输,常见的优化方式是将小表读到内存中并广播到大表处理,避免shuffle+reduce: 在hive中叫mapjoin(map-side join),配置为 hive.auto.convert.join 在spark中叫BroadcastHashJoin (broadcast hash join) Spark SQL uses broadcast join (aka…

【原创】大叔问题定位分享（8）提交spark任务报错 Caused by: java.lang.ClassNotFoundException: org.I0Itec.zkclient.exception.ZkNoNodeException

spark 2.1.1 一问题重现 spark-submit --master local[*] --class app.package.AppClass --jars /jarpath/zkclient-0.3.jar --driver-memory 1g app.jar 报错 Java HotSpot(TM) 64-Bit Server VM warning: Setting CompressedClassSpaceSize has no effect when compressed cl…

【原创】大叔问题定位分享（6）Dubbo monitor服务iowait高，负载高

一问题 Dubbo monitor所在服务器状态异常,iowait一直很高,load也一直很高,监控如下: iowait如图: load如图: 二分析通过iotop命令可以查看当前系统中磁盘io情况以及进程占用磁盘io的情况从中可以定位到占用io进程的pid: 通过 cat /proc/${pid}/io 可以查看一个进程具体的读写状况: 通过 ps aux|grep ${pid} 可以查到这个进程具体的命令: 通过以上命令定位到进程为dubbo的monitor进程,用jstack打印线…

【原创】大叔问题定位分享（5）Kafka客户端报错SocketException: Too many open files 打开的文件过多

kafka0.8.1 一问题 10月22号应用系统忽然报错: [2014/12/22 11:52:32.738]java.net.SocketException: 打开的文件过多 [2014/12/22 11:52:32.738] at java.net.Socket.createImpl(Socket.java:447) [2014/12/22 11:52:32.738] at java.net.Socket.connect(Socket.java:577) [201…

【原创】大叔问题定位分享（4）Kafka集群broker节点从zookeeper上消失

kafka_2.8.0-0.8.1 一现象生产环境一组kafka集群经常发生问题,现象是kafka在zookeeper上的broker节点消失,此时kafka进程和端口都在,然后每个broker都在报错,主要是 1) [2017-01-09 12:40:53,832] INFO Partition [topic1,3] on broker 1361: Shrinking ISR for partition [topic1,3] from 1351,1361,1341 to 1361 (kaf…

【原创】大叔问题定位分享（3）Kafka集群broker进程逐个报错退出

kafka0.8.1 一问题现象生产环境kafka服务器134.135.136分别在10月11号.10月13号挂掉: 134日志 [2014-10-13 16:45:41,902] FATAL [KafkaApi-134] Halting due to unrecoverable I/O error while handling produce request: (kafka.server.KafkaApis) 135日志 [2014-10-11 11:02:35,754] FATAL […

【原创】大叔问题定位分享（30）mesos agent启动失败：Failed to perform recovery: Incompatible agent info detected

mesos agent启动失败,报错如下: Feb 15 22:03:18 server1.bj mesos-slave[1190]: E0215 22:03:18.622994 1192 slave.cpp:7311] EXIT with status 1: Failed to perform recovery: Incompatible agent info detected....Feb 15 22:03:18 server1.bj mesos-slave[1190]: ---------…