Spark安装部署（local和standalone模式）

Spark运行的4中模式：

Local

Standalone

Yarn

Mesos

一、安装spark前期准备

1、安装java

$ sudo tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/service/

export JAVA_HOME=/opt/service/jdk1.7.0_67

export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$CLASSPATH

alternatives --config java

alternatives --install /usr/bin/java java /opt/java/jdk1.7.0_67/bin/java 3

alternatives --config java

--如果不修改这里，可能在安装spark组件时报错。

2、安装scala

tar -zxvf scala-2.10.4.tgz -C /opt/

配置环境变量后scala即安装成功。

3、安装hadoop

参考：http://www.cnblogs.com/wcwen1990/p/6739151.html

4、安装spark

1）local模式安装部署

tar -zxvf spark-1.3.0-bin-2.5.0-cdh5.3.6.tgz -C /opt/cdh-5.3.6/

cd /opt/cdh-5.3.6/

mv spark-1.3.0-bin-2.5.0-cdh5.3.6/ spark-1.3.0

spark安装local模式安装成功，通过bin/spark-shell可以进行spark基本操作。

Local模式下spark基本测试：

bin/spark-shell

scala> sc.textFile("/opt/datas/wc.input")

scala> res0.collect

scala> sc.stop()

scala> exit

2）standalone模式安装spark

tar -zxvf spark-1.3.0-bin-2.5.0-cdh5.3.6.tgz -C /opt/cdh-5.3.6/

cd /opt/cdh-5.3.6/

mv spark-1.3.0-bin-2.5.0-cdh5.3.6/ spark-1.3.0

编辑slaves文件，添加worker节点：

db02

设置log4j日志，内容默认

配置spark-env.sh环境变量：

JAVA_HOME=/opt/java/jdk1.7.0_67

SCALA_HOME=/opt/scala-2.10.4

HADOOP_CONF_DIR=/opt/cdh-5.3.6/hadoop-2.5.0/etc/hadoop

SPARK_MASTER_IP=db02

SPARK_MASTER_PORT=7077

SPARK_MASTER_WEBUI_PORT=8080

SPARK_WORKER_CORES=2

SPARK_WORKER_MEMORY=5g

SPARK_WORKER_PORT=7078

SPARK_WORKER_WEBUI_PORT=8081

SPARK_WORKER_INSTANCES=1

SPARK_WORKER_DIR=/opt/cdh-5.3.6/spark-1.3.0/data/tmp

配置spark-defaults.conf文件：不配置此选项运行spark服务还是在local模式下运行。

spark.master spark://db02:7077

-----------------------------------------------------------------------------------------------------------------------------------------

如果没有配置此选项，也可以通过bin/spark-shell命令通过指定--master参数指定其运行在哪种模式下，例如：

# bin/spark-shell --master spark://db02:7077

或者

# bin/spark-shell --master local

启动spark：

sbin/start-master.sh

sbin/start-slaves.sh

此时http://db02:8080/可以登录web浏览器访问，如下：

运行bin/spark-shell，可以在web端看到下面任务，这是配置了spark-default.conf文件，否则将看不到任务：

测试standalone模式spark：

bin/hdfs dfs -mkdir -p /user/hadoop/wordcount/input/

bin/hdfs dfs -ls /user/hadoop/wordcount/

Found 1 items

drwxr-xr-x - root supergroup 0 2017-05-22 14:47 /user/hadoop/wordcount/input

bin/hdfs dfs -put /opt/datas/wc.input /user/hadoop/wordcount/input

bin/hdfs dfs -ls /user/hadoop/wordcount/input

Found 1 items

-rw-r--r-- 3 root supergroup 63 2017-05-22 14:48 /user/hadoop/wordcount/input/wc.input

---------------------------------------------------------------------------------------------------------------------------------------

scala> sc.textFile("hdfs://db02:8020/user/hadoop/wordcount/input/wc.input")

scala> res0.collect

scala> sc.stop()

scala> exit

Spark安装部署（local和standalone模式）的更多相关文章

Spark安装部署| 运行模式
Spark 一种基于内存的快速.通用.可扩展的大数据分析引擎: 内置模块: Spark Core(封装了rdd.任务调度.内存管理.错误恢复.与存储系统交互): Spark SQL(处理结构化数据). ...
Spark安装部署
原创文章,转载请注明: 转载自www.cnblogs.com/tovin/p/3820979.html 一.系统环境配置参照http://www.cnblogs.com/tovin/p/381890 ...
Spark 安装部署与快速上手
Spark 介绍核心概念 Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架,类似于 Hadoop,但有很多的区别. 最大的优化是让计算任务的中间结果可以存储在内存中, ...
安装部署Apache Hadoop (本地模式和伪分布式)
本节内容: Hadoop版本安装部署Hadoop 一.Hadoop版本 1. Hadoop版本种类目前Hadoop发行版非常多,有华为发行版.Intel发行版.Cloudera发行版(CDH)等, ...
Spark环境搭建（七）-----------spark的Local和standalone模式启动
spark的启动方式有两种,一种单机模式(Local),另一种是多机器的集群模式(Standalone) Standalone 搭建: 准备:hadoop001,hadoop002两台安装spark的 ...
【源码学习之spark core 1.6.1 standalone模式下的作业提交】
说明:个人原创,转载请说明出处 http://www.cnblogs.com/piaolingzxh/p/5656876.html 未完待续
【Spark】Spark的Standalone模式安装部署
Spark执行模式 Spark 有非常多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则执行在集群中,眼下能非常好的执行在 Yarn和 Mesos 中.当然 Spark 还有自带的 St ...
spark运行模式之二：Spark的Standalone模式安装部署
Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Stan ...
spark运行模式之一：Spark的local模式安装部署
Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Stan ...

随机推荐

R语言手册
在R的官方教程里是这么给R下注解的:一个数据分析和图形显示的程序设计环境(A system for data analysis and visualization which is built bas ...
11G新特性 -- OLTP Table Compression
之前的版本中,只能在批量加载操作时,比如direct load.create table as select 操作,才能压缩数据.在dml操作期间是无法压缩数据的. 在11g中,oracle将表压缩扩 ...
【读书笔记】Data_Mining_with_R---Chapter_2_Predicting Algae Blooms
本书概要 <Data Mining with R>这本书通过实例,并结合R讲解数据挖掘技术.本书的核心理念就是"Learning it by doing".本书分5章, ...
python工具 - 批量文件重命名
日常工作中经常会遇到这样的情况,需要将某个文件夹下的文件按着一定的规则进行重命名,当文件数量及其庞大的时候手工一个一个的去修需要耗费大量的时间,以下python工具可以协助批量修改文件名. 场景:某文 ...
Numpy合并矩阵
横向合并:hstack 纵向合并:vstack
Spring-boot(二)yml文件的使用
上一章创建了一个简单的springboot项目,配置可以说非常的简单. 不过,在实际开发中不可能都用默认的配置,还是需要根据自己的实际项目需求有自定义的配置的. 比如:端口号需要变更,模板引擎的缓存开 ...
win7(64bit)+python3.5+pyinstaller3.2安装和测试
最近因为做项目需要,需要在win7中安装pyinstaller用于将.py文件生成脱离python平台的可执行程序*.exe文件. 安装步骤第一步:安装python3.5 [下载python3.5的 ...
使用Ajax异步上传图片的方法(html,javascript,php)
前两天项目中需要用到异步上传图片和显示上传进度的功能,于是找了很多外国的文章,翻山越岭地去遇上各种坑,这里写篇文章记录一下. HTML <form id="fileupload-for ...
自windows8以后，所有版本（专业版、企业版、旗舰版）都支持从 vhd 启动
而在windows 7 中,只有:企业版.旗舰版: 支持从 vhd 启动!
[AWS] Deploy react project on EC2
如何在aws部署项目申请到亚马逊AWS免费账户后,我们可以拥有很多的免费云服务产品项目,其中包括: EC2云服务器. Amazon S3存储. Amazon RDS数据库. Amazon Cloud ...

Spark安装部署（local和standalone模式）

Spark安装部署（local和standalone模式）的更多相关文章

随机推荐

热门专题