04、Spark Standalone集群搭建

大道至简(老徐) 2024-08-29 09:25:07 原文

04、Spark Standalone集群搭建

4.1 集群概述

独立模式是Spark集群模式之一，需要在多台节点上安装spark软件包，并分别启动master节点和worker节点。master节点是管理节点，负责和各worker节点通信，完成worker的注册与注销。worker节点是任务执行节点，通过worker节点孵化出执行器子进程来执行任务。

4.2 集群规划

这里使用4台主机部署Spark集群，主机名称分别是s101、s102、s103和s104。

s101					#Master节点

s102					#Worker节点

s103					#Worker节点

s104					#Worker节点

4.3 集群搭建

4.3.1 安装Spark软件包

按照前文安装spark软件包的方式分别在以上四台主机上安装Spark，注意目录和权限尽量保持一致，以便集群容易维护和管理。也可以将之前的Spark安装目录和环境变量文件分发到以上四台主机。具体安装步骤略。

4.3.2 配置hadoop软连接

在以上四台机的spark配置目录下，创建core-site.xml和hdfs-site.xml软连接文件指向hadoop的配置文件。

#进入配置目录

$>cd /soft/spark/conf

#创建软连接

$>ln -s /soft/hadoop/etc/hadoop/core-site.xml core-site.xml

$>ln -s /soft/hadoop/etc/hadoop/hdfs-site.xml hdfs-site.xml

创建完成后，如下图所示：

4.3.3 修改slaves文件

只需要在master节点对该文件进行修改即可，但为了保持所有节点配置一致性，我们对所有节点都进行修改，或者修改后进行分发。slaves文件内容如下：

#使用如下命令进入slaves文件编辑模式

$>nano /soft/spark/conf/slaves

#输入如下内容，列出所有worker节点。

s102

s103

s104

4.3.4 配置JAVA_HOME环境变量

修改配置目录下spark-env.sh文件，指定JAVA_HOME环境变量。

#使用如下命令进入spark-env.sh文件编辑模式

$>nano /soft/spark/conf/spark-env.sh

#添加如下内容

...

export JAVA_HOME=/soft/jdk

...

编辑内容如下图所示：

4.4 启动集群

启动spark集群时，如果配置了hadoop配置文件，需要先启动hadoop集群，然后再启动Spark集群。由于Spark Standalone集群模式只是从hdfs读取文件，并不需要yarn的支持，因此只需要启动hadoop的hdfs相关进程即可。

#启动hadoop hdfs

$>/soft/hadoop/sbin/start-dfs.sh

#启动Spark集群

$>/soft/spark/sbin/start-all.sh

注意：Spark和Hadoop都有启动所有进程的脚本，并且都叫start-all.sh，因此再使用时一定要使用绝对路径。

查看进程结果如图：

4.5 查看webui

通过如下url地址访问spark webui：

http://s101:8080/

打开页面如下图所示：

04、Spark Standalone集群搭建的更多相关文章

Standalone集群搭建和Spark应用监控
注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6815920501530034696/ 承接上一篇文档<Spark词频前十的统计练习> Spark on ...
（二）win7下用Intelij IDEA 远程调试spark standalone 集群
关于这个spark的环境搭建了好久,踩了一堆坑,今天环境: WIN7笔记本 spark 集群(4个虚拟机搭建的) Intelij IDEA15 scala-2.10.4 java-1.7.0 版本 ...
ubuntu18.04 flink-1.9.0 Standalone集群搭建
集群规划 Master JobManager Standby JobManager Task Manager Zookeeper flink01 √ √ flink02 √ √ flink03 √ √ ...
Spark之集群搭建
注意,这种安装方式是集群方式:然后有常用两种运行模式: standalone , on yarn 区别就是在编写 standalone 与 onyarn 的程序时的配置不一样,具体请参照spar2中的 ...
spark standalone集群部署实践记录
本文记录了一次搭建spark-standalone模式集群的过程,我准备了3个虚拟机服务器,三个centos系统的虚拟机. 环境准备: -每台上安装java1.8 -以及scala2.11.x (x代 ...
一文读懂spark yarn集群搭建
文是超简单的spark yarn配置教程: yarn是hadoop的一个子项目,目的是用于管理分布式计算资源,在yarn上面搭建spark集群需要配置好hadoop和spark.我在搭建集群的时候有3 ...
(一) 从零开始搭建Spark Standalone集群环境搭建
本文主要讲解spark 环境的搭建主机配置 4核8线程,主频3.4G,16G内存虚拟环境: VMWare 虚拟环境系统:Ubuntu 14.10 虚拟机运行环境: jdk-1.7.0_79(64 ...
大数据-spark HA集群搭建
一.安装scala 我们安装的是scala-2.11.8 5台机器全部安装下载需要的安装包,放到特定的目录下/opt/workspace/并进行解压 1.解压缩 [root@master1 ~]# ...
linux平台 spark standalone集群使用 start-all，stop-all 管理集群的启动和退出
一.配置/etc/profile: 文件尾部增加以下内容: export SPARK_HOME=/home/spark/spark-2.2.0-bin-hadoop2.7 export PATH=$P ...

随机推荐

mybatis 遍历字段和字段对应的值循环插入
java代码: /** * 插入单条数据 * @param request * @param response * @param id * @param str * @return * @throws ...
day_08 文件操作
常用模式解释 open表示打开一个文件 f 变量, 操控XXX.txt文件的句柄 r:只读 w:只写 a:追加写入 b:byte,这种模式下,encoding不能用utf-8字符集 1. 文件的基本操 ...
spark 2.X 疑难问题汇总
当前spark任务都是运行在yarn上,所以不用启动长进程worker,也没有master的HA问题,所以主要的问题在任务执行层面. 作业故障分类故障主要分为版本,内存和权限三方面. - 各种版本不一 ...
Why do you need a new Launch X431 scan tool?
1- 2017 Launch x431 v supports “Special Functions” The 2017 version of Launch x431 v diagnostic tool ...
linux下FTP服务搭建(1)
1.FTP介绍: FTP (File Transfer Protocol,文件传输协议)主要用来文件传输,尤其适用于大文件传输,提供上传下载功能 FTP官方网站:https://filezilla-p ...
Django易混淆问题
1.Django本身提供了runserver 为什么不能用来部署 runserver 方法是调试 Django 时经常用到的运行方式,它使用 Django 自带的 WSGI Server 运行,主 ...
ios中页面底部输入框，position:fixed元素的问题
在安卓上点击页面底部的输入框,软键盘弹出,页面移动上移.ios上,软件盘弹出,输入框看不到了.让他弹出时让滚动条在最低部 var u = navigator.userAgent, app = navi ...
django django中的HTML控件及参数传递方法以及 HTML form 里的数据是怎么被包成http request 的？如何在浏览器里查看到这些数据？
https://www.jb51.net/article/136738.htm django中的HTML控件及参数传递方法下面小编就为大家分享一篇django中的HTML控件及参数传递方法,具有很好 ...
python安装包的时候报错
python安装包的时候报错今天兴致勃勃的安装了一个paramiko包,过程很顺利,但是到结尾的时候报错,这就让人不爽了. 所以呢,需要安装一个名为python-dev的软件包. 该软件包包括头文件 ...
mysql 存储过程（代码块）
大纲: 创建.删除.调用. 声明变量.变量赋值声明游标声明异常处理器判断循环使用心得一.创建.删除.调用创建 DELIMITER $$ #修改分隔符 )) #括号里是入参.IN代表传入的 ...