【原创】大叔问题定位分享（14）Kylin频繁OOM问题

公司一个kylin集群，每到周二下午就会逐个节点OOM退出，非常有规律，kylin集群5个节点，每个节点分配的内存已经不断增加到70多G，但是问题依旧；

经排查发现，每周二下午kylin集群的请求量确实会多一些，有可能是kylin的bug，也可能是其他原因，当节点kylin进程内存占用上升时，打印线程堆栈发现，有很多线程都被卡住，synchronized，各种Manager，比如CubeManager、DictionaryManager、MetadataManager，以MetadataManager为例查看kylin代码发现，这些Manager的套路差不多，都有clearCache、getInstance（synchronized），然后getInstance中会调用Constructor，Constructor中会加载一堆东西，这个加载过程比较慢，所以getInstance会长时间synchronized：

org.apache.kylin.metadata.MetadataManager

    public static void clearCache() {

        CACHE.clear();

    }

    public static MetadataManager getInstance(KylinConfig config) {

        MetadataManager r = CACHE.get(config);

        if (r != null) {

            return r;

        }

        synchronized (MetadataManager.class) {

            r = CACHE.get(config);

            if (r != null) {

                return r;

            }

            try {

                r = new MetadataManager(config);

                CACHE.put(config, r);

                if (CACHE.size() > 1) {

                    logger.warn("More than one singleton exist");

                }

                return r;

            } catch (IOException e) {

                throw new IllegalStateException("Failed to init MetadataManager from " + config, e);

            }

        }

    }

    private MetadataManager(KylinConfig config) throws IOException {

        init(config);

    }

    private void init(KylinConfig config) throws IOException {

        this.config = config;

        this.srcTableMap = new CaseInsensitiveStringCache<>(config, "table");

        this.srcTableExdMap = new CaseInsensitiveStringCache<>(config, "table_ext");

        this.dataModelDescMap = new CaseInsensitiveStringCache<>(config, "data_model");

        this.extFilterMap = new CaseInsensitiveStringCache<>(config, "external_filter");

        reloadAllSourceTable();

        reloadAllTableExt();

        reloadAllDataModel();

        reloadAllExternalFilter();

        // touch lower level metadata before registering my listener

        Broadcaster.getInstance(config).registerListener(new SrcTableSyncListener(), "table");

        Broadcaster.getInstance(config).registerListener(new SrcTableExtSyncListener(), "table_ext");

        Broadcaster.getInstance(config).registerListener(new DataModelSyncListener(), "data_model");

        Broadcaster.getInstance(config).registerListener(new ExtFilterSyncListener(), "external_filter");

    }

查看了kylin各个版本的代码，发现都是这个套路，看来kylin不认为这是一个问题，这确实会导致一些潜在的问题，比如高负载时，忽然要刷新，这时就会有大量的请求被synchronized，这个会导致OOM吗？

进一步检查线程堆栈发现，当时tomcat的线程池几乎被占满，这个也很容易理解，之前的请求被synchronized，还不断有新的请求进来，然后线程池就满了，忽然想到，一旦synchronized结束，所有的请求都开始同时处理，而且其中一些请求可能会占用比较多的内存，这样内存可能瞬间就扛不住了，这是一个雪崩效应，上面的场景其实和压测的场景差不多，即服务器满负荷运转，线程池所有的线程都在处理请求，如果tomcat配置的线程池数量太大了，服务器就撑不住了，OOM就是因为这个，如果不改这个配置，内存配置的再大也没用，还是会OOM，把tomcat线程池配置小一些即可；

另外还有一种方法，就是在Load Balancer上加控制，一旦响应很慢，就标记unhealthy，把请求分给其他节点，这样就不会在synchronized的节点上堆积大量请求，也可以避免问题；

【原创】大叔问题定位分享（14）Kylin频繁OOM问题的更多相关文章

【原创】大叔问题定位分享（13）HBase Region频繁下线
问题现象:hive执行sql报错 select count(*) from test_hive_table; 报错 Error: java.io.IOException: org.apache.had ...
【原创】大叔问题定位分享（1）HBase RegionServer频繁挂掉
最近hbase集群很多region server挂掉,查看其中一个RegionServer1日志发现,17:17:14挂的时候服务器压力很大,有大量的responseTooSlow,也有不少gc,但是 ...
【原创】大叔问题定位分享（11）Spark中对大表子查询加limit为什么会报Broadcast超时错误
当两个表需要join时,如果一个是大表,一个是小表,正常的map-reduce流程需要shuffle,这会导致大表数据在节点间网络传输,常见的优化方式是将小表读到内存中并广播到大表处理,避免shuff ...
【原创】大叔问题定位分享（8）提交spark任务报错 Caused by: java.lang.ClassNotFoundException: org.I0Itec.zkclient.exception.ZkNoNodeException
spark 2.1.1 一问题重现 spark-submit --master local[*] --class app.package.AppClass --jars /jarpath/zkcli ...
【原创】大叔问题定位分享（6）Dubbo monitor服务iowait高，负载高
一问题 Dubbo monitor所在服务器状态异常,iowait一直很高,load也一直很高,监控如下: iowait如图: load如图: 二分析通过iotop命令可以查看当前系统中磁盘io ...
【原创】大叔问题定位分享（5）Kafka客户端报错SocketException: Too many open files 打开的文件过多
kafka0.8.1 一问题 10月22号应用系统忽然报错: [2014/12/22 11:52:32.738]java.net.SocketException: 打开的文件过多 [2014/12/ ...
【原创】大叔问题定位分享（4）Kafka集群broker节点从zookeeper上消失
kafka_2.8.0-0.8.1 一现象生产环境一组kafka集群经常发生问题,现象是kafka在zookeeper上的broker节点消失,此时kafka进程和端口都在,然后每个broker都 ...
【原创】大叔问题定位分享（3）Kafka集群broker进程逐个报错退出
kafka0.8.1 一问题现象生产环境kafka服务器134.135.136分别在10月11号.10月13号挂掉: 134日志 [2014-10-13 16:45:41,902] FATAL [ ...
【原创】大叔问题定位分享（30）mesos agent启动失败：Failed to perform recovery: Incompatible agent info detected
mesos agent启动失败,报错如下: Feb 15 22:03:18 server1.bj mesos-slave[1190]: E0215 22:03:18.622994 1192 slave ...

随机推荐

HTML页面全屏/退出全屏
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
iview table行render渲染不同的组件
table不同的行,相同的列渲染不同的组件,如图1:第一行渲染selece,第二行渲染input render:(h,params)=>{ if(params.index === 0){ //以 ...
python 必学模块collections
包含的主要功能如下查看collections 的源码我们可以看到其为我们封装了以下的数据结果供我们调用 __all__ = ['deque', 'defaultdict', 'namedtuple' ...
【idea设置】去掉IntelliJ IDEA 中 mybatis 对应的 xml 文件警告
VUE实例方法添加、COOKIE、Token
创建COOKIE const COOKIE = { KEY_TOKEN: 'access_token', KEY_USER: 'nbuser', KEY_PERMISSION: 'nb-permiss ...
C#中字符串的字面值(转义序列)
在程序开发中,经常会碰到在字符串中字面值中使用转义序列,下面表格收集了下转义序列的完整列表,以便大家查看引用: 转义序列列表转义序列产生的字符字符的Unicode值 \' 单引号 0x0027 ...
这才是你想要的 Python 可视化神器
Plotly Express 是一个新的高级 Python 可视化库:它是 Plotly.py 的高级封装,它为复杂的图表提供了一个简单的语法. 受 Seaborn 和 ggplot2 的启发,它专门 ...
Django自带的用户认证auth模块
一.介绍基本上在任何网站上,都无可避免的需要设计实现网站的用户系统.此时我们需要实现包括用户注册.用户登录.用户认证.注销.修改密码等功能. 使用Django,我们可以不需要自己写这些功能,因为Dj ...
mysql数据去重并排序使用distinct 和 order by 的问题
比如直接使用: SELECT distinct mobileFROM table_aWHERE code = 123ORDER BY a_ime desc 在本地mysql数据库没有错,在线上的数据库 ...
Android sdk platform，sdk tools，sdk Build tools，sdk platform tools 的关系
1. sdk platform 简单理解为系统版本最新级别: 28:Android 9 27:Android 8.1 26:Android 8.0 25:Android 7.1 24:Android ...

【原创】大叔问题定位分享（14）Kylin频繁OOM问题

【原创】大叔问题定位分享（14）Kylin频繁OOM问题的更多相关文章

随机推荐

热门专题