Hadoop的stop-all无法关闭集群原因及解决方案

问题现象：在服务器上长时间运行hadoop之后，如果运行stop-all.sh，会发现：

[root@node1 sbin]# stop-all.sh
This script is Deprecated. Instead use stop-dfs.sh and stop-yarn.sh
Stopping namenodes on [node1 node2]
node1: no namenode to stop
node2: no namenode to stop
node2: no datanode to stop
node4: no datanode to stop
node3: no datanode to stop
Stopping journal nodes [node2 node3 node4]
node2: no journalnode to stop
node4: no journalnode to stop
node3: no journalnode to stop
Stopping ZK Failover Controllers on NN hosts [node1 node2]
node1: no zkfc to stop
node2: no zkfc to stop
stopping yarn daemons
no resourcemanager to stop
node2: no nodemanager to stop
node3: no nodemanager to stop
node4: no nodemanager to stop
no proxyserver to stop

用jps查看进程会发现:

[root@node1 sbin]# jps
11616 NameNode
114225 Jps
932 Bootstrap
39302 DFSZKFailoverController
36909 QuorumPeerMain
进程并没有关闭.

问题原因：

hadoop在stop的时候依据的是datanode上的mapred和dfs进程号。而默认的进程号保存在/tmp下，linux默认会每隔一段时间（一般是一个月或者7天左右）去删除这个目录下的文件。因此删掉hadoop-hadoop-jobtracker.pid和hadoop-hadoop-namenode.pid两个文件后，namenode自然就找不到datanode上的这两个进程了。

还有两个原因可能引起这个问题：

1：环境变量 $HADOOP_PID_DIR 在你启动hadoop后改变了

2：用另外的用户身份执行stop-all

解决方法：

1：永久解决方法，修改$HADOOP_HOME/conf/hadoop-env.sh里边，去掉export HADOOP_PID_DIR=/var/hadoop/pids的#号，创建/var/hadoop/pids或者你自己指定目录

发现问题后的解决方法：

这个时候通过脚本已经无法停止进程了，不过我们可以手工停止，方法是到各master和各datanode执行ps -ef | grep java | grep hadoop找到进程号强制杀掉，然后在master执行start-all脚本重新启动，就能正常启动和关闭了。

Hadoop的stop-all无法关闭集群原因及解决方案的更多相关文章

hadoop(九)启动|关闭集群(完全分布式六)|11
前置章节:hadoop集群namenode启动ssh免密登录(hadoop完全分布式五)|11 集群启动配置workers(3.x之前是slaves), 删除localhost,添加102/103/ ...
RabbitMQ集群出现过机器故障，网络异常等故障后，重启无法重新建立集群的终极解决方案
由于机器掉电,网络故障等原因,RabbitMQ整个集群出现问题.重启RabbitMQ时,发现某些机器始终无法重新加入到集群中,而且还可能出现网络分区. 针对不同情况,可能选择 rabbitmqctl ...
Hadoop 2.6.4单节点集群配置
1.安装配置步骤 # wget http://download.oracle.com/otn-pub/java/jdk/8u91-b14/jdk-8u91-linux-x64.rpm # rpm -i ...
[Hadoop] - Win7下提交job到集群上去
一般我们采用win开发+linux hadoop集群的方式进行开发,使用插件:hadoop-***-eclipse-plugin. 运行程序的时候,我们一般采用run as application或者 ...
Hadoop及Zookeeper+HBase完全分布式集群部署
Hadoop及HBase集群部署一. 集群环境系统版本虚拟机:内存 16G CPU 双核心系统: CentOS-7 64位系统下载地址: http://124.202.164.6/files ...
Hadoop入门完全分布式运行模式-集群配置
目录集群配置集群部署规划配置文件说明配置集群群起集群 1 配置workers 2 启动集群总结 3 集群基本测试上传文件到集群查看数据真实存储路径下载执行wordcount程序配 ...
JBOSS集群技术升级版解决方案分享(图示篇)
JBOSS集群技术升级版解决方案分享(实现篇) 前段时间,由于阿堂一直较忙,没有写点什么了,有空时一直在关注"web架构和性能,高并发,Cache层"技术领域的 ...
Hadoop "Cannot create directory .Name node is in safe mode."解决方案
转载自:http://www.waitig.com/hadoop-name-node-is-in-safe-mode.html 在使用Hadoop建立文件的时候,出现“Cannot create di ...
hadoop+tachyon+spark的zybo cluster集群综合配置
1.zybo cluster 架构简述: 1.1 zybo cluster 包含5块zybo 开发板组成一个集群,zybo的boot文件为digilent zybo reference design提 ...
Hadoop 2.2.0 4结点集群安装非HA
总体介绍虚拟机4台,分布在1个物理机上,配置基于hadoop的集群中包括4个节点: 1个 Master, 3个 Salve,i p分布为: 10.10.96.33 hadoop1 (Master) ...

随机推荐

Elasticsearch 索引与文档的常用操作总结二：复杂条件查询
本文为博主原创,未经允许不得转载: 1. 查询所有:match_all GET /es_db/_doc/_search { "query":{ "match_all&q ...
CentOS下PHP7安装mysqlnd模块
单独安装mysqlnd驱动如果是centos下的yum安装方式,那么可以参考后续操作. 因为mysqlnd是mysql原生的驱动,如果已经安装了php-mysql,则需要先卸载,否则会遇到冲突. 先 ...
process-exporter 监控linux机器进程使用情况
process-exporter 监控linux机器进程使用情况背景前期一直想进行关于 IP地址的来源和目的地的监控但是耗费了很多精力都没有搞定. 感觉应该去偷师一下安全监控软件的使用方式. ...
Redis监控方法之二
Redis监控方法之二背景前期整理过使用 exporter + prometheus 方式进行Redis监控的搭建过程最近给同事研究clickhouse时发现 clickhouse 有对应的pl ...
[转帖]是什么让 Redis“气急败坏”回击：13 年来，总有人想替 Redis 换套新架构
https://www.infoq.cn/article/AlF5NIhHdskayl0MTyQG 回击就代表输了?! 今年年中,一位前谷歌.前亚马逊的工程师推出了他创作的开源内存数据缓存系统 Dra ...
[转帖]等待事件 enq:TX - row lock contention分析与解决
6月30日,数据库发生了大量锁表.大概持续1小时,并且越锁越多.后来通过业务人员停掉程序,并kill掉会话后解决. 几天后再EM上查看CPU占用: CPU发生了明显等待. 主要是由于enq:TX - ...
[转帖]Linux之pure-ftpd安装和使用
一.pure-ftpd简介 PureFTPd是一款专注于程序健壮和软件安全的免费FTP服务器软件(基于BSD License),以安全和配置简单为设计目标,支持虚拟主机,IPV6,PAM等功能.. ...
[转帖]vs调试运行程序出现：“由于找不到MSVCP140D.dll，无法继续执行代码 ”的解决方法
碎碎念最近在使用Visual studio调试程序的时候,突然冒出了"由于找不到MSVCP140D.dll,无法继续执行代码.重新安装程序可能会解决次问题."的错误.如下图所示. ...
[转帖]Optimizing Block Device Parameter Settings of Linux
https://support.huawei.com/enterprise/en/doc/EDOC1000181485/ddbc0e8b/optimizing-block-device-paramet ...
[转帖]Strace + pstack发现耗时点
https://www.jianshu.com/p/10ea6fff562c 如何使用strace+pstack利器分析程序性能本文摘抄自如何使用strace+pstack利器分析程序性能程序说明 ...

Hadoop的stop-all无法关闭集群原因及解决方案

Hadoop的stop-all无法关闭集群原因及解决方案的更多相关文章

随机推荐

热门专题