一次Zookeeper 扩展之殇
一、背景
基于公司发展硬性需求,生产VM服务器要统一迁移到ZStack 虚拟化服务器。检查自己项目使用的服务器,其中zookeeper集群中招,所以需要进行迁移。
二、迁移计划
为了使迁移不对业务产生影响,所以最好是采用扩容
-> 缩容
的方式进行。
说明:
1.原生产集群为VM-1,VM-2,VM-3组成一个3节点的ZK集群;
2.对该集群扩容,增加至6节点(新增ZS-1,ZS-2,ZS-3),进行数据同步完成;
3.进行缩容,下掉原先来的三个节点(VM-1,VM-2,VM-3);
4.替换nginx解析地址。
OK! 目标很明确,过程也很清晰,然后开干。
三、步骤 (过程已在测试环境验证无问题):
对新增的三台服务器进行zk环境配置,和老集群配置一样即可,最好使用同一版本(版主使用的是3.4.6);
对老节点的zoo.cfg 增加新集群的地址(逐一增加),然后对新增加节点逐一重启。
四、问题
ZS-1
启动成功,zkServer.sh status 报错,用zkServer.sh status查看,反馈如下异常:
[root@localhost bin]# ./zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /usr/zookeeper/zookeeper-3.4./bin/../conf/zoo.cfg
Error contacting service. It is probably not running.
此时查看数据,数据同步正常
ZS- 数据同步正常,但是无法查看节点的状态信息;
怀疑是因为老节点没有重启的原因;此时去查看原集群节点信息,发现原集群节点状态异常。经排查定位,原集群的状态一直处于异常状态。
初步定位原因可能是原集群的选举存在异常,导致新节点无法正常纳入,继续排查。
恢复集群初始状态,如果集群节点的状态一直没法正常查看。OK 继续定位...
五、排查过程
以下方法来自于网络:
可能有以下几个原因:
第一、zoo.cfg文件配置:dataLogDir指定的目录未被创建。
.zoo.cfg
[root@SIA- conf]# cat zoo.cfg
...
dataDir=/app/zookeeperdata/data
dataLogDir=/app/zookeeperdata/log
... .路径
[root@SIA- conf]# cd /app/zookeeperdata/
[root@SIA- zookeeperdata]# ll
total
drwxr-xr-x root root Apr : data
drwxr-xr-x root root Aug log
经排查 排除该因素。
第二、myid文件中的整数格式不对,或者与zoo.cfg中的server整数不对应。
[root@SIA- data]# cd /app/zookeeperdata/data
[root@SIA- data]# cat myid
[root@SIA- data]#
定位排查后排除不是该原因。
第三、防火墙未关闭。
使用service iptables stop 关闭防火墙; 使用service iptables status确认; 使用chkconfig iptables off禁用防火墙。
确认防火墙是关闭的。
[root@localhost ~]# service iptables status
iptables: Firewall is not running.
确认防火墙是关闭的
第四、端口被占用。
[root@localhost bin]# netstat -tunlp | grep
tcp ::: :::* LISTEN /java
tcp ::: :::* LISTEN /java 确认端口没有被占用
第五、zoo.cfg文件中主机名出错。
经测试环境测试,主机名正确,多域名解析也正常,不存在此问题
第六、hosts文件中,本机的主机名有两个对应,只需保留主机名和ip地址的映射。
经测试环境测试,主机名正确,多域名解析也正常,不存在此问题 排除。
第七、zkServer.sh里的nc命令有问题。
可能是机器上没有安装nc命令,还有种说法是在zkServer.sh里找到这句:
STAT=`echo stat | nc localhost $(grep clientPort “$ZOOCFG” | sed -e ‘s/.*=//’) 2> /dev/null| grep Mode`
在nc与localhost之间加上 -q (是数字1而不是字母l) zookeeper版本是3.4.6,zkServer.sh里根本没有这一句(获取状态的语句没有用nc命令) # -q is necessary on some versions of linux where nc returns too quickly, and no stat result is output
clientPortAddress=`grep "^[[:space:]]*clientPortAddress[^[:alpha:]]" "$ZOOCFG" | sed -e 's/.*=//'`
if ! [ $clientPortAddress ]
then
clientPortAddress="localhost"
fi
clientPort=`grep "^[[:space:]]*clientPort[^[:alpha:]]" "$ZOOCFG" | sed -e 's/.*=//'`
STAT=`"$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}" \
-cp "$CLASSPATH" $JVMFLAGS org.apache.zookeeper.client.FourLetterWordMain \
$clientPortAddress $clientPort srvr > /dev/null \
| grep Mode`
if [ "x$STAT" = "x" ]
then
echo "Error contacting service. It is probably not running."
exit
else
echo $STAT
exit
fi
;;
六、以下是自己排查的方式:
目前现象老集群数据同步正常,也能进行leader选举(从日志获取),但是无法查看节点状态,同异常信息;进行集群扩容,数据不能同步。
解决方法:
1、尝试进行foreground 模式启动,选择一台非主节点进行重启,可以前台查看启动日志。
zkserver.sh start-foreground 节点启动正常,无异常输出。
2、查看shell脚本:分析zkServer.sh。
- "Error contacting service. It is probably not running." 这块日志出现以下脚本中。
STAT=`"$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}" \
-cp "$CLASSPATH" $JVMFLAGS org.apache.zookeeper.client.FourLetterWordMain \
$clientPortAddress $clientPort srvr > /dev/null \
| grep Mode`
if [ "x$STAT" = "x" ]
then
echo "Error contacting service. It is probably not running."
exit
else
echo $STAT
exit
fi
;;
- 截取其中一部分脚本内容:我们可以初步定为应该是
$STAT
获取存在异常 如果STAT变量为空,则会显示Error contacting service. It is probably not running.: OK,那就分析下这个$STAT
到底是什么鬼?
if [ “x$STAT” = “x” ]
then
echo “Error contacting service. It is probably not running.”
exit
else
echo $STAT
exit
fi
3、尝试用shell的debug模式 看下执行过程:
- 截取片段执行日志如下 :果然STAT变量确实为空,导致输出Error contacting service. It is probably not running.并且退出。
++ grep '^[[:space:]]*clientPort[^[:alpha:]]' /app/zookeeper-3.4./bin/../conf/zoo.cfg
+ clientPort=
++ grep Mode
++ /opt/jdk1..0_131/bin/java -Dzookeeper.log.dir=. -Dzookeeper.root.logger=INFO,CONSOLE -cp '/app/zookeeper-3.4.6/bin/../build/classes:/app/zookeeper-3.4.6/bin/../build/lib/*.jar:/app/zookeeper-3.4.6/bin/../lib/slf4j-log4j12-1.6.1.jar:/app/zookeeper-3.4.6/bin/../lib/slf4j-api-1.6.1.jar:/app/zookeeper-3.4.6/bin/../lib/netty-3.7.0.Final.jar:/app/zookeeper-3.4.6/bin/../lib/log4j-1.2.16.jar:/app/zookeeper-3.4.6/bin/../lib/jline-0.9.94.jar:/app/zookeeper-3.4.6/bin/../zookeeper-3.4.6.jar:/app/zookeeper-3.4.6/bin/../src/java/lib/*.jar:/app/zookeeper-3.4.6/bin/../conf:.:/opt/jdk1.8.0_131/lib/dt.jar:/opt/jdk1.8.0_131/lib/tools.jar' org.apache.zookeeper.client.FourLetterWordMain localhost srvr
+ STAT=
+ ‘[‘ x = x ‘]’
+ echo ‘Error contacting service. It is probably not running.’
Error contacting service. It is probably not running.
+ exit
4、修改shell脚本:分析zkServer.sh 在脚本总增加输出STAT 内容,这次我们不进行过滤。
STAT1=`"$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}" \
-cp "$CLASSPATH" $JVMFLAGS org.apache.zookeeper.client.FourLetterWordMain \
$clientPortAddress $clientPort srvr > test.log \ ` echo "$STAT1"
- 最好的方式是copy一个新脚本,以免污染原本的脚本。我是这么做的;然后运行该脚本。
[root@localhost bin]# ./zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /usr/zookeeper/zookeeper-3.4./bin/../conf/zoo.cfg
Error contacting service. It is probably not running.
- 然后查看生成的test.log 文件:果然存在异常内容。
in thread “main” java.lang.NumberFormatException: For input string: “
at java.lang.NumberFormatException.forInputString(NumberFormatException.java:)
at java.lang.Integer.parseInt(Integer.java:)
at java.lang.Integer.parseInt(Integer.java:)
at org.apache.zookeeper.client.FourLetterWordMain.main(FourLetterWordMain.java:)
- 从日志信息来看,提示说2181这个端口号造成的。 不是一个合法的数字。
zkServer.sh里有这么一句:
clientPort=`grep “^[[:space:]]*clientPort[^[:alpha:]]” “$ZOOCFG” | sed -e ‘s/.*=//’`
grep “^[[:space:]]*clientPort[^[:alpha:]]” “$ZOOCFG” | sed -e ‘s/.*=//’在执行过程中,实际命令如下:
grep ‘^[[:space:]]*clientPort[^[:alpha:]]’ /app/zookeeper-3.4./bin/../conf/zoo.cfg | sed -e ‘s/.*=//’
最终可以基本确认配置文件存在问题。
替换配置文件:重启 问题解决。
存在原因可能是编辑zoo.cfg 编码格式等等引起文件内容解析异常。
作者: 毛正卫
拓展阅读:宜信敏捷数据中台建设实践|分享实录
一次Zookeeper 扩展之殇的更多相关文章
- linux php安装zookeeper扩展
linux php安装zookeeper扩展 tags:php zookeeper linux ext 前言: zookeeper提供很犀利的命名服务,并且集群操作具有原子性,所以在我的多个项目中被采 ...
- mac下安装php zookeeper扩展
安装步骤 php-zookeeper依赖libzookeeper,所以需要先安装libzookeeper 安装libzookeeper cd /usr/local/src/ wget http://m ...
- Kafka分布式:ZooKeeper扩展
[ZooKeeper] 服务注册.服务发现.客户端负载均衡.Offset偏移量分布式存储. kafka使用zookeeper来实现动态的集群扩展,不需要更改客户端(producer和consumer) ...
- centos php Zookeeper kafka扩展安装
如题,系统架构升级引入消息机制,php 安装还是挺麻烦的,网上各种文章有的东拼西凑这里记录下来做个备忘,有需要的同学可以自行参考安装亲测可行 1 zookeeper扩展安装 1.安装zookeeper ...
- zookeeper和PHP zookeeper和kafka 扩展安装
http://blog.csdn.net/fenglailea/article/details/52458737#t3 目录(?)[-] 安装zookeeper 1直接安装zookeeper无须编 ...
- ZooKeeper学习第八期——ZooKeeper伸缩性
一.ZooKeeper中Observer 1.1 ZooKeeper角色 经过前面的介绍,我想大家都已经知道了在ZooKeeper集群当中有两种角色Leader和Follower.Leader可以接受 ...
- 【Zookeeper系列】ZooKeeper伸缩性(转)
原文地址:https://www.cnblogs.com/sunddenly/p/4143306.html 一.ZooKeeper中Observer 1.1 ZooKeeper角色 经过前面的介绍,我 ...
- ZooKeeper系列(8):ZooKeeper伸缩性
一.ZooKeeper中Observer 1.1 ZooKeeper角色 经过前面的介绍,我想大家都已经知道了在ZooKeeper集群当中有两种角色Leader和Follower.Leader可以接受 ...
- ZooKeeper学习第八期---ZooKeeper伸缩性
转:http://www.cnblogs.com/sunddenly/p/4143306.html 一.ZooKeeper中Observer 1.1 ZooKeeper角色 经过前面的介绍,我想大家都 ...
随机推荐
- 杂项-权限管理:Spring Secutity
ylbtech-杂项-权限管理:Spring Secutity Spring Security是一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架.它提供了一组可以在S ...
- Android ANR原因以及开发时如何预防
经常可以在Android系统上发现ANR异常响应的问题.故了解一下ANR出现的原因 一. Android系统中,应用程序的响应是由ActivityManager 和 WindowManger系统服务监 ...
- AD9各种布线总结
1.常规布线:不详细说了,是个人就知道怎么弄.需要说明的是在布线过程中,可按小键盘的*键或大键盘的数字2键添加一个过孔:按L键可以切换布线层:按数字3可设定最小线宽.典型线宽.最大线宽的值进行切换. ...
- SQL Server BCP 资料导入导出
SQL Server BCP 导入导出使用 Bcp 导出导入数据高效,比使用SQL Server Management Stdio 提供的数据库导出导入要高效因为sql server 也没有提供提供类 ...
- python unittest之断言及示例
python unintest单元测试框架提供了一整套内置的断言方法. 如果断言失败,则抛出一个AssertionError,并标识该测试为失败状态 如果异常,则当做错误来处理 注意:以上两种方式的区 ...
- SVN客户端下载和Svn visual studio插件
1.Visual SVN Visual SVN visual studio插件 https://www.visualsvn.com/vis... 2.TortoiseSVN SVN客户端下载 http ...
- linux命令-tar工具详解
把文件和目录打成一个包 文件打包 [root@wangshaojun ~]# tar -cvf 1.tar 1.txt 123 234 ///-c创建 -v可视化 -f file放最后面1.txt12 ...
- maven仓库的管理_Nexus
maven仓库管理的软件有很多,这里介绍的是Sonatype的nexus 一.下载 下载地址:https://yunpan.cn/cv2JhzwQuvb7B 访问密码 932d 二.安装 2.1.将 ...
- [hdu1712]ACboy needs your help分组背包
题意:一共$m$天,$n$门课程,每门课程花费$i$天得到$j$的价值,求最后获得的最大价值 解题关键:分组背包练习,注意循环的顺序不能颠倒 伪代码: $for$ 所有的组$k$ $for{\rm ...
- 使用showMessageDialog显示消息框
-----------------siwuxie095 工程名:TestJOptionPane 包名:com.siwuxie095.showdialog ...