运行Spark程序的几种模式

一. local 模式 -- 所有程序都运行在一个JVM中，主要用于开发时测试
    无需开启任何服务，可直接运行 ./bin/run-example 或 ./bin/spark-submit 如：
   ./bin/run-example SparkPi 10
   ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[4] ./examples/jars/spark-examples_2.11-2.1.1.jar 100
   local[4] 代表会有4个线程（每个线程一个core）来并发执行应用程序。

此模式下，
       1. 这个SparkSubmit进程又当爹、又当妈，既是客户提交任务的Client进程、又是Spark的driver程序、还充当着Spark执行Task的Executor角色
       2.程序的运行状态可通过 http://<driver-node>:4040 查看，但是这是临时的，程序运行完后，这个UI也就失效了。我们可以启动Spark History Server，这
   样就可以看到历史运行程序的信息了。

开启Spark History Server，可以在spark-defaults.conf里配置如下信息：
   spark.eventLog.enabled             true
   spark.eventLog.dir                 hdfs://ubuntu1:9000/spark/eventlog
   spark.history.fs.logDirectory      hdfs://ubuntu1:9000/spark/eventlog

   通过： 192.168.137.11:18080 访问 history server //如果启动history的话

二. 测试或实验性质的本地伪集群运行模式（单机模拟集群） -- 在单机启动多个进程来模拟集群下的分布式场景
   无需开启任何服务，可直接运行如下命令：
    ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local-cluster[2,3,512] ./examples/jars/spark-examples_2.11-2.1.1.jar 20
   local-cluster[x,y,z]参数：x代表要生成的executor数，y和z分别代表每个executor所拥有的core和memory数。
   遇到的问题：sc.executorMemory默认值是1024M,如果我们设置的z的值比1024小的话，就会抛错。可以在spark-defaults.conf 里配置sc.executorMemory的大小。如：
   spark.executor.memory              512m
   设置成512(单位M)的原因是：用的是本地VM，总共内存也没多少。但是如果设置小于450m的话，还是会报错。
   此模式下：SparkSubmit依然充当全能角色，又是Client进程，又是driver程序，还有点资源管理的作用


三. Spark自带Cluster Manager的Standalone Client模式（集群）
    需要先启动Spark的Master和Worker守护进程。提交一个任务的命令如下：
    ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://ubuntu1:7077 ./examples/jars/spark-examples_2.11-2.1.1.jar 100
    此模式下，1. 会在所有有Worker进程的节点上启动Executor来执行应用程序。
              2. Master进程做为cluster manager，用来对应用程序申请的资源进行管理；
              3. SparkSubmit 做为Client端和运行driver程序；
              4. 运行结果在Shell里可见
   注意，Worker进程生成几个Executor，每个Executor使用几个core，这些都可以在spark-env.sh里面配置

需要配置项：
   1. slaves 文件
   2. spark-env.sh
       export JAVA_HOME=/opt/programs/jdk1.8.0_131
       export SPARK_MASTER_IP=ubuntu1
       export SPARK_WORKER_CORES=2
       export SPARK_EXECUTOR_MEMORY=512m
       export SPARK_WORKER_MEMORY=512m
       export SPARK_DRIVER_MEMORY=512m

   提交一个Spark程序后，可以通过下面的UI查看任务运行状态。
   UI: 192.168.137.11:8080
       192.168.137.11:18080 //如果启动history的话

四. spark自带cluster manager的standalone cluster模式（集群）
   需要先启动Spark的Master和Worker守护进程。提交一个任务的命令如下：
   ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://ubuntu1:7077 --deploy-mode cluster ./examples/jars/spark-examples_2.11-2.1.1.jar 50
   此模式下，1. 客户端的SparkSubmit进程会在应用程序提交给集群之后就退出。所以在shell里，运行结果不可见
              2. Master会在集群中选择一个Worker进程生成一个子进程DriverWrapper来启动driver程序
              3. 而该DriverWrapper 进程会占用Worker进程的一个core，所以同样的资源下配置下，会比第3种运行模式，少用1个core来参与计算
              4. 应用程序的结果，会在执行driver程序的节点的stdout中输出

   需要配置项：同（三）

五. 基于YARN的Resource Manager的Client模式（集群）
   需要先启动 Hadoop 的 YARN。不需要启动Spark的Master、Worker守护进程。运行如下命令
   ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client ./examples/jars/spark-examples_2.11-2.1.1.jar 100
   此模式下：1. 在Resource Manager节点上提交应用程序，会生成SparkSubmit进程，该进程会执行driver程序。
              2. RM会在集群中的某个NodeManager上，启动一个ExecutorLauncher进程，来做为ApplicationMaster
              3. 也会在多个NodeManager上生成CoarseGrainedExecutorBackend进程来并发的执行应用程序


   Yarn 集群模式需要配置项：
   1. spark-env.sh
   export JAVA_HOME=/opt/programs/jdk1.8.0_131
   export HADOOP_HOME=/opt/programs/hadoop-2.7.3
   export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
   export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
   export SPARK_HOME=/opt/programs/spark-2.1.1-bin-hadoop2.7

六. 基于YARN的Resource Manager的Cluster模式（集群）
   需要先启动 Hadoop 的 YARN。不需要启动Spark的Master、Worker守护进程。运行如下命令
   ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster ./examples/jars/spark-examples_2.11-2.1.1.jar 100
   此模式下：1. 在Resource Manager端提交应用程序，会生成SparkSubmit进程，该进程只用来做Client端，应用程序提交给集群后，就会删除该进程。
              2. Resource Manager在集群中的某个NodeManager上运行ApplicationMaster，该AM同时会执行driver程序
              3. 紧接着，会在各NodeManager上运行CoarseGrainedExecutorBackend来并发执行应用程序
              4. 应用程序的结果，会在执行driver程序的节点的stdout中输出，而不是打印在屏幕上。


   Yarn 集群模式需要配置项：同(五)

运行Spark程序的几种模式的更多相关文章

Django---Http协议简述和原理,HTTP请求码,HTTP请求格式和响应格式(重点),Django的安装与使用,Django项目的创建和运行(cmd和pycharm两种模式),Django的基础文件配置,Web框架的本质,服务器程序和应用程序(wsgiref服务端模块,jinja2模板渲染模块)的使用
Django---Http协议简述和原理,HTTP请求码,HTTP请求格式和响应格式(重点),Django的安装与使用,Django项目的创建和运行(cmd和pycharm两种模式),Django的基 ...
eclipse运行spark程序时日志颜色为黑色的解决办法
自从开始学习spark计算框架以来,我们老师教的是local模式下用eclipse运行spark程序,然后我在运行spark程序时,发现控制台的日志颜色总是显示为黑色,哇,作为程序猿总有一种强迫症,发 ...
使用IDEA运行Spark程序
使用IDEA运行Spark程序 1.安装IDEA 从IDEA官网下载Community版本,解压到/usr/local/idea目录下. tar –xzf ideaIC-13.1.4b.tar.gz ...
如何在本地使用scala或python运行Spark程序
如何在本地使用scala或python运行Spark程序包含两个部分: 本地scala语言编写程序,并编译打包成jar,在本地运行. 本地使用python语言编写程序,直接调用spark的接口, ...
周一02.3运行python程序的两种方式
一.运行python程序的两种方式方法一:交互式: 优点:输入一行代码立刻返回结果缺点:无法永久保存代码方法二: ...
Hadoop：开发机运行spark程序，抛出异常：ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
问题: windows开发机运行spark程序,抛出异常:ERROR Shell: Failed to locate the winutils binary in the hadoop binary ...
Spark中的两种模式
两种模式 client-了解 cluster模式-开发使用操作 1.需要Yarn集群 2.历史服务器 3.提交任务的的客户端工具-spark-submit命令 4.待提交的spark任务/程序的字节 ...
如何运行Spark程序
[hxsyl@CentOSMaster spark-2.0.2-bin-hadoop2.6]# ./bin/spark-submit --class org.apache.spark.examples ...
luigi框架--关于python运行spark程序
首先,目标是写个python脚本,跑spark程序来统计hdfs中的一些数据.参考了别人的代码,故用了luigi框架. 至于luigi的原理底层的一些东西Google就好.本文主要就是聚焦快速使用, ...

随机推荐

ubuntu 更新软件命令
安装软件最好加权限(sudo) --default-timeout=100 设置超时时间100秒 install -U setuptools 表示更新安装setuptools sudo pip3 -- ...
UVA - 11624 Fire! 【BFS】
题意有一个人有一些火人在每一秒可以向上下左右的空地走火每秒也会向上下左右的空地蔓延求人能不能跑出来如果能求最小时间思路有一个坑点火是可能有多处的样例中只有 ...
HDU - 1241 Oil Deposits 【DFS】
题目链接 https://cn.vjudge.net/contest/65959#problem/L 题意 @表示油田如果 @@是连在一起的可以八个方向相连那么它们就是一块油田要找出一共有 ...
PAT 乙级 1081. 检查密码 (15) 【字符串】
题目链接 https://www.patest.cn/contests/pat-b-practise/1081 思路有一个坑点可能会输入空格也就是说要用 geline 或者 gets() 然后 ...
html5--2.1新的布局元素(1)-header/footer
html5--2.1新的布局元素(1)-header/footer 学习要点了解header/footer的语义和用法使用header/footer进行一个简单的布局 header元素(标签) 用 ...
sqlite：多线程操作数据库“database is locked”解决方法
1. 使sqlite支持多线程(不确定是否非加不可,暂且加上,以备后患) 可以在编译时/启动时/运行时选择线程模式,参考:http://www.cnblogs.com/liaj/p/4015219.h ...
MySQL存储过程示例
MySQL存储过程: /*自定义结束符*/ DELIMITER $$ /*如果存在同名的存储过程就删除*/ DROP PROCEDURE IF EXISTS prAddBlack$$ /*创建存储过程 ...
瞎写的树dfs序
这里枚举了树的DFS序来解决树上问题的多个板子,自己最好多看看. ↓改↓ ↓求↓ 点点 ————————>>>这个就算了点树简单, BIT 点链重点! 树树简单, 线 ...
ACM学习历程——UVA11111 Generalized Matrioshkas（栈）
Description Problem B - Generalized Matrioshkas Problem B - Generalized Matrioshkas Vladimir wo ...
【Lintcode】106.Convert Sorted List to Balanced BST
题目: Given a singly linked list where elements are sorted in ascending order, convert it to a height ...

运行Spark程序的几种模式

运行Spark程序的几种模式的更多相关文章

随机推荐

热门专题