一、背景

基于公司发展硬性需求,生产VM服务器要统一迁移到ZStack 虚拟化服务器。检查自己项目使用的服务器,其中zookeeper集群中招,所以需要进行迁移。

二、迁移计划

为了使迁移不对业务产生影响,所以最好是采用扩容 -> 缩容 的方式进行。

  1. 说明:
  2. 1.原生产集群为VM-1,VM-2,VM-3组成一个3节点的ZK集群;
  3. 2.对该集群扩容,增加至6节点(新增ZS-1,ZS-2,ZS-3),进行数据同步完成;
  4. 3.进行缩容,下掉原先来的三个节点(VM-1,VM-2,VM-3);
  5. 4.替换nginx解析地址。
  6. OK! 目标很明确,过程也很清晰,然后开干。

三、步骤 (过程已在测试环境验证无问题):

  1. 对新增的三台服务器进行zk环境配置,和老集群配置一样即可,最好使用同一版本(版主使用的是3.4.6);

  2. 对老节点的zoo.cfg 增加新集群的地址(逐一增加),然后对新增加节点逐一重启。

四、问题

  • ZS-1 启动成功,zkServer.sh status 报错,用zkServer.sh status查看,反馈如下异常:
  1. [root@localhost bin]# ./zkServer.sh status
  2. ZooKeeper JMX enabled by default
  3. Using config: /usr/zookeeper/zookeeper-3.4./bin/../conf/zoo.cfg
  4. Error contacting service. It is probably not running.
  • 此时查看数据,数据同步正常
  1. ZS- 数据同步正常,但是无法查看节点的状态信息;
  1.  
  • 怀疑是因为老节点没有重启的原因;此时去查看原集群节点信息,发现原集群节点状态异常。经排查定位,原集群的状态一直处于异常状态。

  • 初步定位原因可能是原集群的选举存在异常,导致新节点无法正常纳入,继续排查。

  • 恢复集群初始状态,如果集群节点的状态一直没法正常查看。OK 继续定位...

五、排查过程

以下方法来自于网络:

可能有以下几个原因:

第一、zoo.cfg文件配置:dataLogDir指定的目录未被创建。

  1. .zoo.cfg
  2. [root@SIA- conf]# cat zoo.cfg
  3. ...
  4. dataDir=/app/zookeeperdata/data
  5. dataLogDir=/app/zookeeperdata/log
  6. ...
  7.  
  8. .路径
  9. [root@SIA- conf]# cd /app/zookeeperdata/
  10. [root@SIA- zookeeperdata]# ll
  11. total
  12. drwxr-xr-x root root Apr : data
  13. drwxr-xr-x root root Aug log
  1.  

经排查 排除该因素。

第二、myid文件中的整数格式不对,或者与zoo.cfg中的server整数不对应。

  1. [root@SIA- data]# cd /app/zookeeperdata/data
  2. [root@SIA- data]# cat myid
  3. [root@SIA- data]#

定位排查后排除不是该原因。

第三、防火墙未关闭。

使用service iptables stop 关闭防火墙; 使用service iptables status确认; 使用chkconfig iptables off禁用防火墙。

确认防火墙是关闭的。

  1. [root@localhost ~]# service iptables status
  2. iptables: Firewall is not running.
  3. 确认防火墙是关闭的

第四、端口被占用。

  1. [root@localhost bin]# netstat -tunlp | grep
  2. tcp ::: :::* LISTEN /java
  3. tcp ::: :::* LISTEN /java
  4.  
  5. 确认端口没有被占用
  1.  

第五、zoo.cfg文件中主机名出错。

  1. 经测试环境测试,主机名正确,多域名解析也正常,不存在此问题

第六、hosts文件中,本机的主机名有两个对应,只需保留主机名和ip地址的映射。

  1. 经测试环境测试,主机名正确,多域名解析也正常,不存在此问题 排除。

第七、zkServer.sh里的nc命令有问题。

  1. 可能是机器上没有安装nc命令,还有种说法是在zkServer.sh里找到这句:
  2. STAT=`echo stat | nc localhost $(grep clientPort “$ZOOCFG” | sed -e ‘s/.*=//’) 2> /dev/null| grep Mode`
  3. nclocalhost之间加上 -q (是数字1而不是字母l
  4.  
  5. zookeeper版本是3.4.6zkServer.sh里根本没有这一句(获取状态的语句没有用nc命令)
  6.  
  7. # -q is necessary on some versions of linux where nc returns too quickly, and no stat result is output
  8. clientPortAddress=`grep "^[[:space:]]*clientPortAddress[^[:alpha:]]" "$ZOOCFG" | sed -e 's/.*=//'`
  9. if ! [ $clientPortAddress ]
  10. then
  11. clientPortAddress="localhost"
  12. fi
  13. clientPort=`grep "^[[:space:]]*clientPort[^[:alpha:]]" "$ZOOCFG" | sed -e 's/.*=//'`
  14. STAT=`"$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}" \
  15. -cp "$CLASSPATH" $JVMFLAGS org.apache.zookeeper.client.FourLetterWordMain \
  16. $clientPortAddress $clientPort srvr > /dev/null \
  17. | grep Mode`
  18. if [ "x$STAT" = "x" ]
  19. then
  20. echo "Error contacting service. It is probably not running."
  21. exit
  22. else
  23. echo $STAT
  24. exit
  25. fi
  26. ;;

六、以下是自己排查的方式:

目前现象老集群数据同步正常,也能进行leader选举(从日志获取),但是无法查看节点状态,同异常信息;进行集群扩容,数据不能同步。

解决方法:

1、尝试进行foreground 模式启动,选择一台非主节点进行重启,可以前台查看启动日志。

  1. zkserver.sh start-foreground
  2.  
  3. 节点启动正常,无异常输出。

2、查看shell脚本:分析zkServer.sh。

  • "Error contacting service. It is probably not running." 这块日志出现以下脚本中。
  1. STAT=`"$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}" \
  2. -cp "$CLASSPATH" $JVMFLAGS org.apache.zookeeper.client.FourLetterWordMain \
  3. $clientPortAddress $clientPort srvr > /dev/null \
  4. | grep Mode`
  5. if [ "x$STAT" = "x" ]
  6. then
  7. echo "Error contacting service. It is probably not running."
  8. exit
  9. else
  10. echo $STAT
  11. exit
  12. fi
  13. ;;
  • 截取其中一部分脚本内容:我们可以初步定为应该是 $STAT 获取存在异常 如果STAT变量为空,则会显示Error contacting service. It is probably not running.: OK,那就分析下这个$STAT到底是什么鬼?
  1. if [ x$STAT = x ]
  2. then
  3. echo Error contacting service. It is probably not running.”
  4. exit
  5. else
  6. echo $STAT
  7. exit
  8. fi

3、尝试用shell的debug模式 看下执行过程:

  • 截取片段执行日志如下 :果然STAT变量确实为空,导致输出Error contacting service. It is probably not running.并且退出。
  1. ++ grep '^[[:space:]]*clientPort[^[:alpha:]]' /app/zookeeper-3.4./bin/../conf/zoo.cfg
  2. + clientPort=
  3. ++ grep Mode
  4. ++ /opt/jdk1..0_131/bin/java -Dzookeeper.log.dir=. -Dzookeeper.root.logger=INFO,CONSOLE -cp '/app/zookeeper-3.4.6/bin/../build/classes:/app/zookeeper-3.4.6/bin/../build/lib/*.jar:/app/zookeeper-3.4.6/bin/../lib/slf4j-log4j12-1.6.1.jar:/app/zookeeper-3.4.6/bin/../lib/slf4j-api-1.6.1.jar:/app/zookeeper-3.4.6/bin/../lib/netty-3.7.0.Final.jar:/app/zookeeper-3.4.6/bin/../lib/log4j-1.2.16.jar:/app/zookeeper-3.4.6/bin/../lib/jline-0.9.94.jar:/app/zookeeper-3.4.6/bin/../zookeeper-3.4.6.jar:/app/zookeeper-3.4.6/bin/../src/java/lib/*.jar:/app/zookeeper-3.4.6/bin/../conf:.:/opt/jdk1.8.0_131/lib/dt.jar:/opt/jdk1.8.0_131/lib/tools.jar' org.apache.zookeeper.client.FourLetterWordMain localhost srvr
  5. + STAT=
  6. + ‘[‘ x = x ‘]’
  7. + echo Error contacting service. It is probably not running.’
  8. Error contacting service. It is probably not running.
  9. + exit

4、修改shell脚本:分析zkServer.sh 在脚本总增加输出STAT 内容,这次我们不进行过滤。

  1. STAT1=`"$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}" \
  2. -cp "$CLASSPATH" $JVMFLAGS org.apache.zookeeper.client.FourLetterWordMain \
  3. $clientPortAddress $clientPort srvr > test.log \ `
  4.  
  5. echo "$STAT1"
  1.  
  • 最好的方式是copy一个新脚本,以免污染原本的脚本。我是这么做的;然后运行该脚本。
  1. [root@localhost bin]# ./zkServer.sh status
  2. ZooKeeper JMX enabled by default
  3. Using config: /usr/zookeeper/zookeeper-3.4./bin/../conf/zoo.cfg
  4. Error contacting service. It is probably not running.
  • 然后查看生成的test.log 文件:果然存在异常内容。
  1. in thread main java.lang.NumberFormatException: For input string:
  2. at java.lang.NumberFormatException.forInputString(NumberFormatException.java:)
  3. at java.lang.Integer.parseInt(Integer.java:)
  4. at java.lang.Integer.parseInt(Integer.java:)
  5. at org.apache.zookeeper.client.FourLetterWordMain.main(FourLetterWordMain.java:)
  • 从日志信息来看,提示说2181这个端口号造成的。 不是一个合法的数字。

zkServer.sh里有这么一句:

  1. clientPort=`grep “^[[:space:]]*clientPort[^[:alpha:]]” “$ZOOCFG” | sed -e ‘s/.*=//’`
  2. grep “^[[:space:]]*clientPort[^[:alpha:]]” $ZOOCFG | sed -e s/.*=//’在执行过程中,实际命令如下:
  3. grep ‘^[[:space:]]*clientPort[^[:alpha:]]’ /app/zookeeper-3.4./bin/../conf/zoo.cfg | sed -e s/.*=//’
  • 最终可以基本确认配置文件存在问题。

  • 替换配置文件:重启 问题解决。

  • 存在原因可能是编辑zoo.cfg 编码格式等等引起文件内容解析异常。

作者: 毛正卫

拓展阅读:宜信敏捷数据中台建设实践|分享实录

一次Zookeeper 扩展之殇的更多相关文章

  1. linux php安装zookeeper扩展

    linux php安装zookeeper扩展 tags:php zookeeper linux ext 前言: zookeeper提供很犀利的命名服务,并且集群操作具有原子性,所以在我的多个项目中被采 ...

  2. mac下安装php zookeeper扩展

    安装步骤 php-zookeeper依赖libzookeeper,所以需要先安装libzookeeper 安装libzookeeper cd /usr/local/src/ wget http://m ...

  3. Kafka分布式:ZooKeeper扩展

    [ZooKeeper] 服务注册.服务发现.客户端负载均衡.Offset偏移量分布式存储. kafka使用zookeeper来实现动态的集群扩展,不需要更改客户端(producer和consumer) ...

  4. centos php Zookeeper kafka扩展安装

    如题,系统架构升级引入消息机制,php 安装还是挺麻烦的,网上各种文章有的东拼西凑这里记录下来做个备忘,有需要的同学可以自行参考安装亲测可行 1 zookeeper扩展安装 1.安装zookeeper ...

  5. zookeeper和PHP zookeeper和kafka 扩展安装

    http://blog.csdn.net/fenglailea/article/details/52458737#t3   目录(?)[-] 安装zookeeper 1直接安装zookeeper无须编 ...

  6. ZooKeeper学习第八期——ZooKeeper伸缩性

    一.ZooKeeper中Observer 1.1 ZooKeeper角色 经过前面的介绍,我想大家都已经知道了在ZooKeeper集群当中有两种角色Leader和Follower.Leader可以接受 ...

  7. 【Zookeeper系列】ZooKeeper伸缩性(转)

    原文地址:https://www.cnblogs.com/sunddenly/p/4143306.html 一.ZooKeeper中Observer 1.1 ZooKeeper角色 经过前面的介绍,我 ...

  8. ZooKeeper系列(8):ZooKeeper伸缩性

    一.ZooKeeper中Observer 1.1 ZooKeeper角色 经过前面的介绍,我想大家都已经知道了在ZooKeeper集群当中有两种角色Leader和Follower.Leader可以接受 ...

  9. ZooKeeper学习第八期---ZooKeeper伸缩性

    转:http://www.cnblogs.com/sunddenly/p/4143306.html 一.ZooKeeper中Observer 1.1 ZooKeeper角色 经过前面的介绍,我想大家都 ...

随机推荐

  1. java代码throws异常

    总结:抛出异常 package com.ds; //异常捕获 public class fdsg { private static void throwException() { try { Stri ...

  2. 【jQuery】praseFloat()方法的用法及注意事项

    [jQuery]praseFloat()方法的用法及注意事项 praseFloat():  用于解析一个字符串,并返回一个浮点数 语法:                praseFloat(strin ...

  3. 集合对象与自定义javabean对象接收数据库查询的数据 (基础知识扫盲)

    一.集合对象(List,Map,数组)等对象接收数据库查询的记录,如果没有一条记录,就得到的内容为空的集合,不是null: 例如:List查不到记录得到的就是size=0的list 二.自定义的jav ...

  4. 基于STM32的三轴数字罗盘HMC5883L模块的测试

    最近买了个数字罗盘模块,调通后发现很不错,非常灵敏,测试的时候精度在1°以内.连续测量模式下,最快测量.输出速率可达75hz,模块每次测量完毕并将数据更新至寄存器后,其DRDY引脚便产生一个低电平脉冲 ...

  5. HTML5 中文乱码

    <meta charste="utf-8"> 只是告诉浏览器要用utf-8来解释,而文档的编码,是在你保存时的选择决定的.如果保存ANSI 然后用utf-8解释,肯定是 ...

  6. R: 数据结构、数据类型的描述。

    ################################################### 问题:数据结构..类型  18.4.27 有哪些数据结构.类型??  各自有什么特点? 解决方案 ...

  7. JavaEE资源

    JavaEE资源   http://bbs.itheima.com/forum.php?mod=forumdisplay&fid=183

  8. servlet与filter的加载顺序详解

     项目:3个filter,3个servlet,匹配的url路径/hello. 情况1:servlet没加<load-on-startup></load-on-startup>情 ...

  9. jQuery学习1

    学习jQuery的过程中发现了一个博客把jquery的要点整理的很不错,摘抄其精华以备学习.感谢:http://blog.csdn.net/wph_1129/article/details/59932 ...

  10. adnroid 启动是没有标题栏

    <activity android:name=".MainActivity" android:theme="@android:style/Theme.Light.N ...