记一次ZOOKEEPER集群超时问题分析

CDH安装的ZK，三个节点，基本都是默认配置，一直用得正常，今天出现问题，
客户端连接超时6倍时长，默认最大会话超时时间是一分钟。
原因分析：
1.首先要确认网络正确。确认时钟同步。
2.查看现有的配置，基本都是默认配置 JVM配置是1G 有 2g的，不一样
3.查看dataDir目录，du -sh .发现已经有五百多M
具体原因不确定，没有看到日志中出现的问题，
分析可能是因为随着时间的推移，ZOOKEEPER中的数据信息量增大，启动后
因为需要同步的数据量和初始同步时间过短简（initLimit＝10）等原因，
造成集群不健康，
解决方案：
1.增大JVM堆栈内存从1G到3G，确认机器上有足够内存，不能SWAP。
2.增大TICKTIME FROM 2000 TO 3000 增加“tickTime”或者“initLimit和syncLimit”的值，或者两者都增大。
3.增大最大客户端连接数统一为600 （以防万一）

查询相关的资料：

1 参考这位兄弟的文章：菜鸟小玄： https://www.jianshu.com/p/f30ae8e75d6d

一个server广播的数据包括4个部分：

自己所选取的leader的id：首次选举的话，这个id就是自己的id；

当前server保存的数据的zxid：越新就越应该被其它server选为leader，保证数据的最新

逻辑时钟：也就是这是第几次选举，越大表示这是越新的选举；

本机状态：LOOKING,FOLLOWING,OBSERVING,LEADING几种；

每个server收到其它server发来的值后，进行判断，选择所保存的数据最新（zxid最大）、逻辑时钟最大，且在选举状态的id作为leader（当然，还有其它条件，逻辑比较复杂，这里不再赘述），并重新广播。来来回回几次之后，系统达成一致，得票多的为leader，leader被选出。

现在leader被选出，但这并不意味着它能坐稳leader的位置，因为接下来，leader要向所有的follower同步自己所保存的数据（多写问题）。如果这个过程出错或超时，则又需要重新选举leader；

那么一般造成zookeeper集群挂掉的原因是什么呢？归根到底一句话：要同步的数据太大！多大？500M

zookeeper集群中leader和follower同步数据的极限值是500M，这500M的数据，加载到内存中，大约占用3个G的内存。数据过大，在每次选举之后，需要从server同步到follower，容易造成下面2个问题：

网络传输超时，因为文件过大，传输超过最大超时时间，造成TimeoutException，从而引起重新选举。

最后经同事反馈，极有可能是由于大数据所依赖的云平台的IO问题造成的，因为云平台出问题的时间与我们大数据平台故障的时间相一致，而另一个小的物理集群依然正常，

其实这个问题，我分析的时候，按正常的逻辑，应该先检查系统本身的问题，要去var/log/messages中去检查有没有IO相关的错误或其他错误，这是第一步。

因为是云平台的问题，他们坏了一块盘，刚好分在了CDH的管理节点上，我们在日志中找不到INPUT／OUTPUT的错误，只是超时。

这就是HADOOP权威指南中没有不建议使用云平台的原因，容易隐藏问题，还享受不到云平台本身带来的那些优势。

谨记！！！！

记一次ZOOKEEPER集群超时问题分析的更多相关文章

记一次zookeeper集群搭建错误的排除
zookeeper官网上的文档说得很清楚. http://zookeeper.apache.org/doc/r3.5.1-alpha/zookeeperAdmin.html#sc_designing ...
zookeeper集群的搭建以及hadoop ha的相关配置
1.环境 centos7 hadoop2.6.5 zookeeper3.4.9 jdk1.8 master作为active主机,data1作为standby备用机,三台机器均作为数据节点,yarn资源 ...
ZooKeeper1 利用虚拟机搭建自己的ZooKeeper集群
前言: 前段时间自己参考网上的文章,梳理了一下基于分布式环境部署的业务系统在解决数据一致性问题上的方案,其中有一个方案是使用ZooKeeper,加之在大数据处理中,ZooKeeper确实起 ...
构建高可用ZooKeeper集群
ZooKeeper 是 Apache 的一个顶级项目,为分布式应用提供高效.高可用的分布式协调服务,提供了诸如数据发布/订阅.负载均衡.命名服务.分布式协调/通知和分布式锁等分布式基础服务.由于 Zo ...
构建高可用ZooKeeper集群（转载）
ZooKeeper 是 Apache 的一个顶级项目,为分布式应用提供高效.高可用的分布式协调服务,提供了诸如数据发布/订阅.负载均衡.命名服务.分布式协调/通知和分布式锁等分布式基础服务.由于 Zo ...
Zookeeper集群的安装和使用
Apache Zookeeper 由 Apache Hadoop 的 Zookeeper 子项目发展而来,现已经成为 Apache 的顶级项目,它是一个开放源码的分布式应用程序协调服务,是Google ...
zookeeper集群配置与启动
摘要:Zookeeper是一个很好的集群管理工具,被大量用于分布式计算.如Hadoop以及Storm系统中.这里简单记录下Zookeeper集群环境的搭建过程.本文以Ubuntu 12.04 LTS作 ...
Linux环境快速部署Zookeeper集群
一.部署前准备: 1.下载ZooKeeper的安装包: http://zookeeper.apache.org/releases.html 我下载的版本是zookeeper-3.4.9. 2.将下载的 ...
ZooKeeper 03 - ZooKeeper集群的脑裂问题 (Split Brain问题)
目录 1 ZooKeeper的主从机制 2 什么是ZooKeeper的脑裂 2.1 脑裂现象的表现 2.2 为什么会出现脑裂 3 ZooKeeper如何解决"脑裂" 3.1 3种可 ...

随机推荐

html转pdf工具：wkhtmltopdf.exe
百度云下载:http://pan.baidu.com/s/1dEX0h93
python3----datetime模块分析
datetime模块用于是date和time模块的合集,datetime有两个常量,MAXYEAR和MINYEAR,分别是9999和1. datetime模块定义了5个类,分别是 1.datetime ...
C++ enum 枚举类型
1. 枚举类型浅谈假设我们要设计一个打开文件的函数, 打开文件由三种状态: input, output 和 append. 不使用枚举, 我们可能会写出如下的代码 const int input = ...
php 重写session
重写session的存储机制转自 http://www.cnblogs.com/bc8web/p/5699935.html Session数据区默认以文件的形式存储与服务器操作系统临时目录中! ...
链接href的多重使用
1. 拨打电话在电话号码前面可以加上 + (加号)表示国际号码. <a href="tel:10086">10086</a> 使用wtai协议进行拨打电话 ...
Vmware虚拟机中安装centos,并实现联网
1 安装所需要的软件 vmware workstation 12 永久激活码:5A02H-AU243-TZJ49-GTC7K-3C61N CentOS-7-x86_64-Minimal-1708 2 ...
[SharePoint 2010] 如何在小組網站內頁面上撥放影片或是音效檔
在SharePoint 2010中, 我們可以像是Youtube一樣在網頁上撥放影片或是音效檔案. 影片或音效是採取串流的方式來撥放. 也就是說我們不需要把整個檔案都下載回來才開始撥放. 點選沒多久我 ...
spring+springMVC中使用@Transcational方式管理事务的必须要配的东西。
spring中管理事务的配置方式除了@Transcational还有使用aop等,本文介绍@Transcational方式. 关于这两种方式的选择: aop方式适合需要支持事务的方法或类较多,且方法和 ...
angular4 组件间通信
父传子用@input 子传父用@output 例:子组件 <p> <span *ngFor="let star of stars;let i=index" cla ...
angular4 *ngFor获取index
angular 中的*ngFor指令的使用 <ul> <li *ngFor="let item in items">{{item}}</li> ...

记一次ZOOKEEPER集群超时问题分析

记一次ZOOKEEPER集群超时问题分析的更多相关文章

随机推荐

热门专题