公司一个kylin集群,每到周二下午就会逐个节点OOM退出,非常有规律,kylin集群5个节点,每个节点分配的内存已经不断增加到70多G,但是问题依旧;

经排查发现,每周二下午kylin集群的请求量确实会多一些,有可能是kylin的bug,也可能是其他原因,当节点kylin进程内存占用上升时,打印线程堆栈发现,有很多线程都被卡住,synchronized,各种Manager,比如CubeManager、DictionaryManager、MetadataManager,以MetadataManager为例查看kylin代码发现,这些Manager的套路差不多,都有clearCache、getInstance(synchronized),然后getInstance中会调用Constructor,Constructor中会加载一堆东西,这个加载过程比较慢,所以getInstance会长时间synchronized:

org.apache.kylin.metadata.MetadataManager

    public static void clearCache() {
CACHE.clear();
} public static MetadataManager getInstance(KylinConfig config) {
MetadataManager r = CACHE.get(config);
if (r != null) {
return r;
} synchronized (MetadataManager.class) {
r = CACHE.get(config);
if (r != null) {
return r;
}
try {
r = new MetadataManager(config);
CACHE.put(config, r);
if (CACHE.size() > 1) {
logger.warn("More than one singleton exist");
} return r;
} catch (IOException e) {
throw new IllegalStateException("Failed to init MetadataManager from " + config, e);
}
}
} private MetadataManager(KylinConfig config) throws IOException {
init(config);
} private void init(KylinConfig config) throws IOException {
this.config = config;
this.srcTableMap = new CaseInsensitiveStringCache<>(config, "table");
this.srcTableExdMap = new CaseInsensitiveStringCache<>(config, "table_ext");
this.dataModelDescMap = new CaseInsensitiveStringCache<>(config, "data_model");
this.extFilterMap = new CaseInsensitiveStringCache<>(config, "external_filter"); reloadAllSourceTable();
reloadAllTableExt();
reloadAllDataModel();
reloadAllExternalFilter(); // touch lower level metadata before registering my listener
Broadcaster.getInstance(config).registerListener(new SrcTableSyncListener(), "table");
Broadcaster.getInstance(config).registerListener(new SrcTableExtSyncListener(), "table_ext");
Broadcaster.getInstance(config).registerListener(new DataModelSyncListener(), "data_model");
Broadcaster.getInstance(config).registerListener(new ExtFilterSyncListener(), "external_filter");
}

查看了kylin各个版本的代码,发现都是这个套路,看来kylin不认为这是一个问题,这确实会导致一些潜在的问题,比如高负载时,忽然要刷新,这时就会有大量的请求被synchronized,这个会导致OOM吗?

进一步检查线程堆栈发现,当时tomcat的线程池几乎被占满,这个也很容易理解,之前的请求被synchronized,还不断有新的请求进来,然后线程池就满了,忽然想到,一旦synchronized结束,所有的请求都开始同时处理,而且其中一些请求可能会占用比较多的内存,这样内存可能瞬间就扛不住了,这是一个雪崩效应,上面的场景其实和压测的场景差不多,即服务器满负荷运转,线程池所有的线程都在处理请求,如果tomcat配置的线程池数量太大了,服务器就撑不住了,OOM就是因为这个,如果不改这个配置,内存配置的再大也没用,还是会OOM,把tomcat线程池配置小一些即可;

另外还有一种方法,就是在Load Balancer上加控制,一旦响应很慢,就标记unhealthy,把请求分给其他节点,这样就不会在synchronized的节点上堆积大量请求,也可以避免问题;

【原创】大叔问题定位分享(14)Kylin频繁OOM问题的更多相关文章

  1. 【原创】大叔问题定位分享(13)HBase Region频繁下线

    问题现象:hive执行sql报错 select count(*) from test_hive_table; 报错 Error: java.io.IOException: org.apache.had ...

  2. 【原创】大叔问题定位分享(1)HBase RegionServer频繁挂掉

    最近hbase集群很多region server挂掉,查看其中一个RegionServer1日志发现,17:17:14挂的时候服务器压力很大,有大量的responseTooSlow,也有不少gc,但是 ...

  3. 【原创】大叔问题定位分享(11)Spark中对大表子查询加limit为什么会报Broadcast超时错误

    当两个表需要join时,如果一个是大表,一个是小表,正常的map-reduce流程需要shuffle,这会导致大表数据在节点间网络传输,常见的优化方式是将小表读到内存中并广播到大表处理,避免shuff ...

  4. 【原创】大叔问题定位分享(8)提交spark任务报错 Caused by: java.lang.ClassNotFoundException: org.I0Itec.zkclient.exception.ZkNoNodeException

    spark 2.1.1 一 问题重现 spark-submit --master local[*] --class app.package.AppClass --jars /jarpath/zkcli ...

  5. 【原创】大叔问题定位分享(6)Dubbo monitor服务iowait高,负载高

    一 问题 Dubbo monitor所在服务器状态异常,iowait一直很高,load也一直很高,监控如下: iowait如图: load如图: 二 分析 通过iotop命令可以查看当前系统中磁盘io ...

  6. 【原创】大叔问题定位分享(5)Kafka客户端报错SocketException: Too many open files 打开的文件过多

    kafka0.8.1 一 问题 10月22号应用系统忽然报错: [2014/12/22 11:52:32.738]java.net.SocketException: 打开的文件过多 [2014/12/ ...

  7. 【原创】大叔问题定位分享(4)Kafka集群broker节点从zookeeper上消失

    kafka_2.8.0-0.8.1 一 现象 生产环境一组kafka集群经常发生问题,现象是kafka在zookeeper上的broker节点消失,此时kafka进程和端口都在,然后每个broker都 ...

  8. 【原创】大叔问题定位分享(3)Kafka集群broker进程逐个报错退出

    kafka0.8.1 一 问题现象 生产环境kafka服务器134.135.136分别在10月11号.10月13号挂掉: 134日志 [2014-10-13 16:45:41,902] FATAL [ ...

  9. 【原创】大叔问题定位分享(30)mesos agent启动失败:Failed to perform recovery: Incompatible agent info detected

    mesos agent启动失败,报错如下: Feb 15 22:03:18 server1.bj mesos-slave[1190]: E0215 22:03:18.622994 1192 slave ...

随机推荐

  1. Day5 Numerical simulation of optical wave propagation之通过随机介质(如大气湍流)的传播(一)

    一 分步光束传播方法 到目前为止,人们已经设计出传播算法,用于模拟通过真空和通过可用光线矩阵描述的简单光学系统的传播. 其中分步光束传播方法除了描述上述传播过程,还有更复杂的应用,包括:部分时间和空间 ...

  2. 写论文时,使用word的一些技巧

    目录 怎么设置文章里所有英文的字体.所有中文的字体样式 删除文章中的所有或者部分超链接 设置忽略英文的拼写检查 怎么设置文章里所有英文字体.所有中文字体样式 用鼠标选中需要更改的文章内容,如果是全文, ...

  3. Educational Codeforces Round 62

    A. Detective Book 代码: #include <bits/stdc++.h> using namespace std; ; int N; int a[maxn]; ; in ...

  4. RPM Database 实战详解

    RPM 是 RPM Package Manager 的简写,是发源于 Red-hat 系统的软件管理工具,所以最初的名字叫做 Red-hat Packager Manager.目前,RPM 已发展成为 ...

  5. SpringCloud实践引入注册中心+配置中心

    随着服务数量的增多,尤其是多数项目涉及jni本地方法的调用,所需参数配置较多,同时内存溢出等维护问题时常发生.鉴于此,原tomcat集群的使用已难满足需求,而微服务的思想契合当前项目实践,特在服务端构 ...

  6. Educational Codeforces Round 60 (Rated for Div. 2)

    A. Best Subsegment 题意 找 连续区间的平均值  满足最大情况下的最长长度 思路:就是看有几个连续的最大值 #include<bits/stdc++.h> using n ...

  7. 【APIO2016】【UOJ205】【LOJ2568】烟花表演 可合并堆

    题目大意 有一棵树,每条边都有一个边权,现在你要修改边权,使得修改后根到所有叶子的距离相等. 要求所有边权非负. 修改的代价为\(\lvert\)每条边修改前的边权\(-\)修改后的边权\(\rver ...

  8. Day038--Python--Gevent , IO多路复用

    1. 协程: gevent  (遇到IO自动切换) import gevent import time from gevent import monkey; monkey.patch_all() # ...

  9. (二分查找 拓展) leetcode 69. Sqrt(x)

    Implement int sqrt(int x). Compute and return the square root of x, where x is guaranteed to be a no ...

  10. centos7启动网卡报错(Failed to start LSB: Bring up/down networking )

    systemctl status network.service systemctl stop NetworkManager systemctl disable NetworkManager syst ...