Spark安装部署(local和standalone模式)
Spark运行的4中模式:
Local
Standalone
Yarn
Mesos
一、安装spark前期准备
1、安装java
$ sudo tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/service/ |
export JAVA_HOME=/opt/service/jdk1.7.0_67 export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$CLASSPATH |
alternatives --config java alternatives --install /usr/bin/java java /opt/java/jdk1.7.0_67/bin/java 3 alternatives --config java --如果不修改这里,可能在安装spark组件时报错。 |
2、安装scala
tar -zxvf scala-2.10.4.tgz -C /opt/ 配置环境变量后scala即安装成功。 |
3、安装hadoop
参考:http://www.cnblogs.com/wcwen1990/p/6739151.html
4、安装spark
1)local模式安装部署
tar -zxvf spark-1.3.0-bin-2.5.0-cdh5.3.6.tgz -C /opt/cdh-5.3.6/ cd /opt/cdh-5.3.6/ mv spark-1.3.0-bin-2.5.0-cdh5.3.6/ spark-1.3.0 spark安装local模式安装成功,通过bin/spark-shell可以进行spark基本操作。 |
Local模式下spark基本测试: bin/spark-shell scala> sc.textFile("/opt/datas/wc.input") scala> res0.collect scala> sc.stop() scala> exit |
2)standalone模式安装spark
tar -zxvf spark-1.3.0-bin-2.5.0-cdh5.3.6.tgz -C /opt/cdh-5.3.6/ cd /opt/cdh-5.3.6/ mv spark-1.3.0-bin-2.5.0-cdh5.3.6/ spark-1.3.0 |
编辑slaves文件,添加worker节点: db02 |
设置log4j日志,内容默认 |
配置spark-env.sh环境变量: JAVA_HOME=/opt/java/jdk1.7.0_67 SCALA_HOME=/opt/scala-2.10.4 HADOOP_CONF_DIR=/opt/cdh-5.3.6/hadoop-2.5.0/etc/hadoop SPARK_MASTER_IP=db02 SPARK_MASTER_PORT=7077 SPARK_MASTER_WEBUI_PORT=8080 SPARK_WORKER_CORES=2 SPARK_WORKER_MEMORY=5g SPARK_WORKER_PORT=7078 SPARK_WORKER_WEBUI_PORT=8081 SPARK_WORKER_INSTANCES=1 SPARK_WORKER_DIR=/opt/cdh-5.3.6/spark-1.3.0/data/tmp |
配置spark-defaults.conf文件:不配置此选项运行spark服务还是在local模式下运行。 spark.master spark://db02:7077 ----------------------------------------------------------------------------------------------------------------------------------------- 如果没有配置此选项,也可以通过bin/spark-shell命令通过指定--master参数指定其运行在哪种模式下,例如: # bin/spark-shell --master spark://db02:7077 或者 # bin/spark-shell --master local |
启动spark: sbin/start-master.sh sbin/start-slaves.sh |
此时http://db02:8080/可以登录web浏览器访问,如下: |
运行bin/spark-shell,可以在web端看到下面任务,这是配置了spark-default.conf文件,否则将看不到任务: |
测试standalone模式spark: bin/hdfs dfs -mkdir -p /user/hadoop/wordcount/input/ bin/hdfs dfs -ls /user/hadoop/wordcount/ Found 1 items drwxr-xr-x - root supergroup 0 2017-05-22 14:47 /user/hadoop/wordcount/input bin/hdfs dfs -put /opt/datas/wc.input /user/hadoop/wordcount/input bin/hdfs dfs -ls /user/hadoop/wordcount/input Found 1 items -rw-r--r-- 3 root supergroup 63 2017-05-22 14:48 /user/hadoop/wordcount/input/wc.input --------------------------------------------------------------------------------------------------------------------------------------- scala> sc.textFile("hdfs://db02:8020/user/hadoop/wordcount/input/wc.input") scala> res0.collect scala> sc.stop() scala> exit |
Spark安装部署(local和standalone模式)的更多相关文章
- Spark安装部署| 运行模式
Spark 一种基于内存的快速.通用.可扩展的大数据分析引擎: 内置模块: Spark Core(封装了rdd.任务调度.内存管理.错误恢复.与存储系统交互): Spark SQL(处理结构化数据). ...
- Spark安装部署
原创文章,转载请注明: 转载自www.cnblogs.com/tovin/p/3820979.html 一.系统环境配置 参照http://www.cnblogs.com/tovin/p/381890 ...
- Spark 安装部署与快速上手
Spark 介绍 核心概念 Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架,类似于 Hadoop,但有很多的区别. 最大的优化是让计算任务的中间结果可以存储在内存中, ...
- 安装部署Apache Hadoop (本地模式和伪分布式)
本节内容: Hadoop版本 安装部署Hadoop 一.Hadoop版本 1. Hadoop版本种类 目前Hadoop发行版非常多,有华为发行版.Intel发行版.Cloudera发行版(CDH)等, ...
- Spark环境搭建(七)-----------spark的Local和standalone模式启动
spark的启动方式有两种,一种单机模式(Local),另一种是多机器的集群模式(Standalone) Standalone 搭建: 准备:hadoop001,hadoop002两台安装spark的 ...
- 【源码学习之spark core 1.6.1 standalone模式下的作业提交】
说明:个人原创,转载请说明出处 http://www.cnblogs.com/piaolingzxh/p/5656876.html 未完待续
- 【Spark】Spark的Standalone模式安装部署
Spark执行模式 Spark 有非常多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则执行在集群中,眼下能非常好的执行在 Yarn和 Mesos 中.当然 Spark 还有自带的 St ...
- spark运行模式之二:Spark的Standalone模式安装部署
Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Stan ...
- spark运行模式之一:Spark的local模式安装部署
Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Stan ...
随机推荐
- NeoFinder for Mac(增强型文件管理工具)破解版安装
1.软件简介 NeoFinder 是 macOS 系统上一款帮助用户管理磁盘的 Mac 工具,NeoFinder for mac 能迅速组织您的数据,无论是在外部或内部磁盘,或任何其他卷.它能记 ...
- 在Vue项目中使用vw实现移动端适配
有关于移动端的适配布局一直以来都是众说纷纭,对应的解决方案也是有很多种.在<使用Flexible实现手淘H5页面的终端适配>提出了Flexible的布局方案,随着viewport单位越来越 ...
- golang slice
golang 在for range一个slice时,会读出其cap长度.在for的过程中,即使动态append该slice,最终for也会在第一次读取的cap长度处停止. package main i ...
- 使用google guava做内存缓存
google guava中有cache包,此包提供内存缓存功能.内存缓存需要考虑很多问题,包括并发问题,缓存失效机制,内存不够用时缓存释放,缓存的命中率,缓存的移除等等. 当然这些东西guava都考虑 ...
- mysql中update+select
mysql中不支持嵌套查询后更新操作. 但是可以使用inner join来解决自身的更新问题,参考如下例子: update hera_job a inner join( ),'"') as ...
- Best Practices in Asynchronous Programming
http://blog.stephencleary.com/ http://blogs.msdn.com/b/pfxteam/
- msm codec 代码跟踪
sound/soc/codecs/msm8x16-wcd.c static struct spmi_device_id msm8x16_wcd_spmi_id_table[] = { {"w ...
- C#基础回顾:正则表达式-转
写在前面:本文根据笔者的学习体会结合相关书籍资料对正则表达式的语法和使用(C#)进行基本的介绍.适用于初学者. 摘要:正则表达式(Regular Expressions),相信做软件开发的朋友或多或少 ...
- Android中Sqlite数据库多线程并发问题
最近在做一个Android项目, 为了改善用户体验,把原先必须让用户“等待”的过程改成在新线程中异步执行.但是这样做遇到了多个线程同时需要写Sqlite数据库,导致操作数据库失败. 本人对Java并不 ...
- 【Math】根据置信度、样本数相关推导过程
时间长了会忘,备忘下. http://blog.csdn.net/liangzuojiayi/article/details/78044780 http://wiki.mbalib.com/wiki/ ...