解决Spark集群无法停止

执行stop-all.sh时，出现报错：no org.apache.spark.deploy.master.Master to stop，no org.apache.spark.deploy.worker.Worker to stop

原因：

Spark的停止，是通过一些.pid文件来操作的。

查看spark-daemon.sh文件，其中一行：$SPARK_PID_DIR　　The pid files are strored .　　/tmp by default .

$SPARK_PID_DIR存放的pid文件中，就是要停止的进程的pid，其中$SPARK_PID_DIR默认是在系统的/tmp目录。

系统每隔一段时间就会清除/tmp目录下的内容。到/tmp下查看，如果没有Spark相关.pid文件，这就是导致Spark集群无法停止的原因。

解决：

查看spark-daemon.sh文件中.pid文件命名规则，其中一行：pid=$SPARK_PID_DIR/spark-$SPARK_IDENT_STRING-$command-$instance.pid

其中

$SPARK_PID_DIR是/tmp

$SPARK_IDENT_STRING是登录用户$USER，我的用户名是root

$command是调用spark-daemon.sh时的参数，有两个：

org.apache.spark.deploy.master.Master

org.apache.spark.deploy.worker.Worker

$instance也是调用spark-daemon.sh时的参数

因此pid文件名如下：

spark-cdahdp-org.apache.spark.deploy.master.Master-1.pid（在master机器中/tmp下创建）

spark-cdahdp-org.apache.spark.deploy.worker.Worker-1.pid（在每一台worker机器中/tmp下创建，如果一台机器开启了多个worker，就创建多个.pid文件，文件名最后的数字依次递增）

通过jps查看所有机器相关进程（master、worker）的pid数字。编辑所有.pid文件，把pid数字一一对应写入.pid文件，最后每个.pid文件中都是一个进程号。

然后执行spark的stop-all.sh，即可正常停止spark集群。

彻底解决：

在集群所有节点编辑spark-env.sh，增加一行：export SPARK_PID_DIR=/home/ap/root/app/pids

删除之前自己创建的所有.pid文件。

然后可以启动spark集群了。

解决Spark集群无法停止的更多相关文章

Spark集群无法停止的原因分析和解决
今天想停止spark集群,发现执行stop-all.sh的时候spark的相关进程都无法停止.提示: no org.apache.spark.deploy.master.Master to stop ...
解决百度BMR的spark集群开启slaves结点的问题
前言最近一直忙于和小伙伴倒腾着关于人工智能的比赛,一直都没有时间停下来更新更新我的博客.不过在这一个过程中,遇到了一些问题,我还是记录了下来,等到现在比较空闲了,于是一一整理出来写成博客.希望对于大 ...
使用fabric解决百度BMR的spark集群各节点的部署问题
前言和小伙伴的一起参加的人工智能比赛进入了决赛之后的一段时间里面,一直在构思将数据预处理过程和深度学习这个阶段合并起来.然而在合并这两部分代码的时候,遇到了一些问题,为此还特意写了脚本文件进行处理. ...
spark集群搭建整理之解决亿级人群标签问题
最近在做一个人群标签的项目,也就是根据客户的一些交易行为自动给客户打标签,而这些标签更有利于我们做商品推荐,目前打上标签的数据已达5亿+, 用户量大概1亿+,项目需求就是根据各种组合条件寻找标签和人群 ...
zhihu spark集群,书籍,论文
spark集群中的节点可以只处理自身独立数据库里的数据,然后汇总吗? 修改我将spark搭建在两台机器上,其中一台既是master又是slave,另一台是slave,两台机器上均装有独立的mongo ...
Spark集群搭建中的问题
参照<Spark实战高手之路>学习的,书籍电子版在51CTO网站资料链接 Hadoop下载[链接](http://archive.apache.org/dist/hadoop/core/ ...
大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序
第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2 ...
Hadoop、Spark 集群环境搭建问题汇总
Hadoop 问题1: Hadoop Slave节点 NodeManager 无法启动解决方法: yarn-site.xml reducer取数据的方式是mapreduce_shuffle 问题2: ...
CentOS6安装各种大数据软件第十章：Spark集群安装和部署
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...

随机推荐

爬取genome的网页和图片
# -*- coding: utf-8 -*- # @Time : 2018/03/08 10:32 # @Author : cxa # @File : gethtmlandimg.py # @Sof ...
安装并启用rabbitmq服务器
1.确保Erlang已经安装 2.安装rabbitmq服务器 [root@bogon yum.repos.d]# rpm --import https://dl.bintray.com/rabbitm ...
ros pcl sensor::pointcloud2 转换成pcl::pointcloud
#include <pcl_conversions/pcl_conversions.h> #include <pcl/point_types.h> #include <p ...
解决 org.aspectj.weaver.ResolvedType$Array cannot be cast to org.aspectj.weaver.ReferenceType
参考:http://www.cnblogs.com/qgc88/p/3283217.html 解决方法: 删除aspectjweaver.jar和aspect.jar 加入aspectjweaver- ...
HDU 6319.Problem A. Ascending Rating-经典滑窗问题求最大值以及COUNT-单调队列 (2018 Multi-University Training Contest 3 1001)
2018 Multi-University Training Contest 3 6319.Problem A. Ascending Rating 题意就是给你长度为k的数列,如果数列长度k<n ...
NYOJ 914 Yougth的最大化【二分/最大化平均值模板/01分数规划】
914-Yougth的最大化内存限制:64MB 时间限制:1000ms 特判: No 通过数:3 提交数:4 难度:4 题目描述: Yougth现在有n个物品的重量和价值分别是Wi和Vi,你能帮他从 ...
hdu6166
hdu6166 题意给出一个有向图,选择 $k$ 个点,问这 $k$ 个点任意两点距离的最小值. 分析按结点编号的二进制位,每次可以把所有点分到两个集合,那么求两个集合的点间的最短路即可( ...
uestc1633
uestc1633 题意给你一个大小为 $n$ 的集合 $S$ ,集合里有 $n$ 个互不相同正整数,有 $q$ 个询问,每次询问是否能选择 $S$ 中的一些数字 ( 同一个数字 ...
简单DP【p2642】双子序列最大和
Description 给定一个长度为n的整数序列,要求从中选出两个连续子序列,使得这两个连续子序列的序列和之和最大,最终只需输出最大和.一个连续子序列的和为该子序列中所有数之和.每个连续子序列的最小 ...
谜题12：ABC
这个谜题要问的是一个悦耳的问题,下面的程序将打印什么呢? public class ABC{ public static void main(String[] args){ String letter ...

解决Spark集群无法停止

解决Spark集群无法停止的更多相关文章

随机推荐

热门专题