Spark之standalone模式

standalone
hdfs:namenode是主节点进程，datanode是从节点进程
yarn：resourcemanager是主节点进程，nodemanager是从节点进程
hdfs和yarn是hadoop里面的节点进程信息

在spark里面有
master：主节点进程
worker：从节点进程

使用standalone模式：
将$SPARK_HOME/conf/目录下的slaves.template修改为slaves后添加主机名，如果有5个台机器就应该进行如下slaves的配置hadoop001~hadoop005
如果是多台机器，那么每台机器都在相同的路径下部署spark
将$SPARK_HOME/conf/目录下的spark-env.sh.template修改为spark-env.sh并添加JAVA_HOME的环境变量，否则会报错

配置完成后启动
在$SPARK_HOME/sbin/目录下执行./start-all.sh，通过jps检测会有Master和Worker两个节点进程，就说明standalone模式安装成功。
web界面访问：
MasterWebUI：http://hadoop000:8080
spark提交作业时指定的端口：spark://hadoop000:7077

提交作业到standalone模式
$SPARK_HOME/bin/执行./pyspark --master spark://hadoop000:7077

standalone模式spark-submit运行
$SPARK_HOME/bin/执行./spark-submit --master spark://hadoop000:7077 --name spark-standalone /home/hadoop/script/spark0402.py hdfs://hadoop000:8020/hello.txt hdfs://hadoop000:8020/wc/output
如果使用standalone模式，而且节点个数大于1的时候，如果使用本地文件测试，必须要保证每个节点上都有本地测试文件，可以直接用hdfs进行测试。
例如：hdfs://hadoop000:8020/hello.txt hdfs://hadoop000:8020/wc/output

yarn运行模式
spark on yarn(spark作为客户端，spark需要做的事情是提交作业到yarn上执行)
yarn和standalone的区别：
yarn模式：只需要一个节点，然后提交作业即可，不需要spark集群的(不需要启动Maser和Worker)
standalone模式：在spark集群上的每个节点都需要部署spark，然后需要启动spark集群(需要Maser和Worker进程节点)
启动yarn：
$SPARK_HOME/bin/执行./spark-submit --master yarn --name spark-yarn /home/hadoop/script/spark0402.py hdfs://hadoop000:8020/hello.txt hdfs://hadoop000:8020/wc/output
运行yarn模式前提是需要指定hadoop_conf_dir或者yarn_conf_dir的配置文件目录
将$HADOOP_HOME/etc/hadoop目录，添加到$SPARK_HOME/conf/目录下的spark-env.sh文件中。例如：HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

yarn支持client和cluster模式：driver运行在哪里
client：提交作业的进程是不能停止的否则作业就挂了
cluster：提交完作业，那么提交作业端就可以断开，因为driver是运行在am里面的
pyspark/spark-shell：交互式运行程序，只能运行在client里面

如何查看已经运行完的yarn的日志信息：yarn logs -applicationId <applicationId>
日志聚合参看：10小时入门Hadoop大数据中的5-12 JobHistory使用

Spark之standalone模式的更多相关文章

Spark的StandAlone模式原理和安装、Spark-on-YARN的理解
Spark是一个内存迭代式运算框架,通过RDD来描述数据从哪里来,数据用那个算子计算,计算完的数据保存到哪里,RDD之间的依赖关系.他只是一个运算框架,和storm一样只做运算,不做存储. Spark ...
【Spark】Spark的Standalone模式安装部署
Spark执行模式 Spark 有非常多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则执行在集群中,眼下能非常好的执行在 Yarn和 Mesos 中.当然 Spark 还有自带的 St ...
spark运行模式之二：Spark的Standalone模式安装部署
Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Stan ...
008 Spark中standalone模式的HA（了解，知道怎么配置即可）
standalone也存在单节点问题,这里主要是配置两个master. 1.官网 2.具体的配置 3.配置方式一(不是太理想) 这种知识基于未来可以重启,但是不能在宕机的时候提供服务. 方式一:Sin ...
Spark在StandAlone模式下提交任务，spark.rpc.message.maxSize太小而出错
1.错误信息org.apache.spark.SparkException: Job aborted due to stage failure:Serialized task 32:5 was 172 ...
一步一步搭建：spark之Standalone模式+zookeeper之HA机制
理论参考:http://www.cnblogs.com/hseagle/p/3673147.html 基于3台主机搭建:以下仅是操作步骤,原理网上自查 :1. 增加ip和hostname的对应关系,跨 ...
Spark部署三种方式介绍：YARN模式、Standalone模式、HA模式
参考自:Spark部署三种方式介绍:YARN模式.Standalone模式.HA模式http://www.aboutyun.com/forum.php?mod=viewthread&tid=7 ...
Spark进阶之路-Standalone模式搭建
Spark进阶之路-Standalone模式搭建作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Spark的集群的准备环境 1>.master节点信息(s101) 2&g ...
Spark standalone模式的安装（spark-1.6.1-bin-hadoop2.6.tgz）（master、slave1和slave2）
前期博客 Spark运行模式概述 Spark standalone简介与运行wordcount(master.slave1和slave2) 开篇要明白 (1)spark-env.sh 是环境变量配 ...

随机推荐

innobackup stream 压缩备份，解压后的qp文件
是用innobackup stream 压缩备份,解压后很多文件还是qp格式的压缩文件,需要再解压. 备份: [root@ ~]# /usr/bin/innobackupex --defaults-f ...
Golang字符串函数认识（一）
package main import ( "fmt" "strings" "strconv" ) func main(){ //返回字符串 ...
Golang的值类型和引用类型的范围、存储区域、区别
常见的值类型和引用类型分别有哪些? 值类型:基本数据类型 int 系列, float 系列, bool, string .数组和结构体struct,使用这些类型的变量直接指向存在内存中的值,值类型的变 ...
win7使用问题解决
1. VM和主机互相PING不通问题:桥接模式,VM可以ping 通外网,可以ping 通局域网其它机子,就是ping 不通本地主机解决:将 vm网卡和本地网连接网卡都共享出来
【题解】bzoj 4327 JSOI2012 玄武密码
原题传送门我们先对所有询问串建立AC自动机(今天洛咕上有人分不清AC自动机和自动AC机) 然后将母串在AC自动机上跑,每走到一个点x,从x点出发沿着fail指针所能到的所有前缀都是匹配成功的,暴力向 ...
bzoj 1419 Red is good - 动态规划 - 概率与期望
Description 桌面上有R张红牌和B张黑牌,随机打乱顺序后放在桌面上,开始一张一张地翻牌,翻到红牌得到1美元,黑牌则付出1美元.可以随时停止翻牌,在最优策略下平均能得到多少钱. Input 一 ...
【python003-变量】
变量一.在使用变量之前,需要先对其进行赋值二.变量命名的规则:可以包含字母,数字,下划线,但是不能以数字开头三.字符串: 1.引号内的一切东西 2.python的字符串是要在两边加上引号,对于单 ...
Navicat for MySQL安装工具及破解工具
链接: http://pan.baidu.com/s/1i500eEh 密码: 9s26
关于python hashlib模块的使用
hashlib hashlib主要提供字符加密功能,将md5和sha模块整合到了一起,支持md5,sha1, sha224, sha256, sha384, sha512等算法 #!/usr/bin/ ...
linux命令之crontab定时执行任务【转】
本文转载自:https://www.cnblogs.com/coffy/p/5608095.html 一.crond简介 crond 是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护 ...

Spark之standalone模式

Spark之standalone模式的更多相关文章

随机推荐

热门专题