Spark1.5.0 + Hadoop2.7.1整合
Hadoop2.7.1已经配置完毕。
Hosts分配如下:
master 172.16.15.140
slave1 172.15.15.141
slave2 172.16.15.142
一、安装Scala:
下载地址:http://www.scala-lang.org/download/2.11.7.html
(scala-2.11.7.tgz
)以下全部使用root权限操作。
(1)创建/usr/scala文件夹:
mkdir /usr/scala
(2)将压缩包解压至/usr/scala 目录:
tar zxvf /home/hadoop/scala-2.11.7.tgz -C /usr/scala
(3)设置环境变量:
vim /etc/profile
#追加如下内容
export SCALA_HOME=/usr/scala/scala-2.11.7
export PATH=$PATH:$SCALA_HOME/bin
(4)使之生效(不用root权限):
source /etc/profile
(5)测试Scala是否安装配置成功(不用root权限):
scala -version
二、安装Spark
官网下载spark1.5.0:
spark-1.5.0-bin-hadoop2.6.tgz
以下全部使用root权限操作
(1)将压缩包解压至/usr目录:
tar zxvf /home/hadoop/spark-1.5.0-bin-hadoop2.6.tgz -C /usr/spark
(2)将spark文件夹授权给Hadoop用户:
chown -R hadoop:hadoop /usr/spark/
(3)设置环境变量:
vim /etc/profile
#追加如下内容
export SPARK_HOME=/usr/spark/spark-1.5.0
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
(4)使之生效(不用root权限)
source /etc/profile
(5)测试Spark是否安装配置成功(不用root权限):
spark-shell --version
(6)运行SparkPi(不用root权限)
run-example org.apache.spark.examples.SparkPi 10
(7)以下不用root权限,使用hadoop用户。配置Spark:
修改spark-env.sh
cd /usr/spark/spark-1.5.0/conf/
cp spark-env.sh.template spark-env.sh
vi spark-env.sh # 追加如下内容 export SCALA_HOME=/usr/scala/scala-2.11.7
export JAVA_HOME=/usr/java/jdk1.7.0_80
export SPARK_MASTER_IP=172.16.15.140
export SPARK_WORKER_MEMORY=1024m启动Spark
$SPARK_HOME/sbin/start-all.sh
提交任务到Spark集群
spark-submit --master spark://172.16.15.140:7077 --class org.apache.spark.examples.SparkPi --name Spark-Pi /usr/spark/lib/spark-examples-1.5.0-hadoop2.6.0.jar
- 使用web查看Spark运行状态
http://master:8080/
三、与Hadoop结合使用
- 分别开启Hadoop集群和Spark集群。
$HDOOP_HOME/sbin/start-dfs.sh
$HDOOP_HOME/sbin/start-yarn.sh
$SPARK_HOME/sbin/start-all.sh
- 在Yarn中运行Spark任务,编辑spark-env.sh:
vim /usr/spark/spark-1.5.0/conf/spark-env.sh
#追加如下内容
export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.7.1/etc/hadoop
- 提交Spark任务到yarn中
spark-submit --master yarn-cluster --class org.apache.spark.examples.SparkLR --name SparkLR /usr/spark/lib/spark-examples-1.5.0-hadoop2.6.0.jar
- 使用web查看任务运行状态(Hadoop的任务监控WebUI)
http://master:8088/
- 结合HDFS,Spark的输入是HDFS的文件
spark-submit --master yarn-cluster --class org.apache.spark.examples.JavaWordCount --name JavaWordCount /usr/spark/lib/spark-examples-1.5.0-hadoop2.6.0.jar hdfs://master:9000/data/
spark-submit工具的参数说明:
Spark1.5.0 + Hadoop2.7.1整合的更多相关文章
- 搭建Hadoop2.6.0+Spark1.1.0集群环境
前几篇文章主要介绍了单机模式的hadoop和spark的安装和配置,方便开发和调试.本文主要介绍,真正集群环境下hadoop和spark的安装和使用. 1. 环境准备 集群有三台机器: master: ...
- 在Win7虚拟机下搭建Hadoop2.6.0+Spark1.4.0单机环境
Hadoop的安装和配置可以参考我之前的文章:在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境. 本篇介绍如何在Hadoop2.6.0基础上搭建spark1.4.0单机环境. 1. 软件准备 ...
- spark 1.6.0 安装与配置(spark1.6.0、Ubuntu14.04、hadoop2.6.0、scala2.10.6、jdk1.7)
前几天刚着实研究spark,spark安装与配置是入门的关键,本人也是根据网上各位大神的教程,尝试配置,发现版本对应最为关键.现将自己的安装与配置过程介绍如下,如有兴趣的同学可以尝试安装.所谓工欲善其 ...
- spark1.2.0安装
standalone 安装SCALA 下载.解压.加入环境变量 安装spark1.2.0 下载.解压.加入环境变量 tar zxvf spark--bin-.tgz export SPARK_HOME ...
- Apache Spark1.1.0部署与开发环境搭建
Spark是Apache公司推出的一种基于Hadoop Distributed File System(HDFS)的并行计算架构.与MapReduce不同,Spark并不局限于编写map和reduce ...
- Spring3.0 与 MyBatis框架 整合小实例
本文将在Eclipse开发环境下,采用Spring MVC + Spring + MyBatis + Maven + Log4J 框架搭建一个Java web 项目. 1. 环境准备: 1.1 创建数 ...
- 基于Spark1.3.0的Spark sql三个核心部分
基于Spark1.3.0的Spark sql三个核心部分: 1.可以架子啊各种结构化数据源(JSON,Hive,and Parquet) 2.可以让你通过SQL,saprk内部程序或者外部攻击,通过标 ...
- spark1.2.0版本SparkSQL使用parquet类型注意事项
在Spark1.2.0版本中是用parquet存储类型时注意事项: sql语句: select * from order_created_dynamic_partition_parquet; 在spa ...
- spark1.1.0下使用SparkSQL
spark1.1.0的安装参见http://blog.csdn.net/bluejoe2000/article/details/41391407 安装了spark之后,可以在 shell中执行Spar ...
随机推荐
- ng 1.2 ng-bind-html 用法
使用ng-bind-html渲染html字符串时需要在控制器外注册$sec 过滤器 //过滤器渲染html字符串 app.filter('to_trusted',['$sce',function($s ...
- C++builder Tokyo 调用com 不正确的变量类型
C++builder Tokyo 调用com 不正确的变量类型 tt.OleFunction("interface_call","MS01",&erro ...
- 每日一练之排序算法(P1097 统计数字)
某次科研调查时得到了n个自然数,每个数均不超过1500000000(1.5×10^9).已知不相同的数不超过10000个,现在需要统计这些自然数各自出现的次数,并按照自然数从小到大的顺序输出统计结果. ...
- inpu控件接受pipe的处理结果
input控件绑定的变量,要接受用户的输入值,一般只要使用 [(ngModel)] 就可以. 但是,pipe处理结果如何反映到变量里去呢?不知道吧?嘿嘿 这样就可以了 : <input ...
- python os.path.isfile函数
最近刚开始学习Python,做了个小练习:扫描当前目录及其子目录中的文件,找出文件名中含有指定关键字的文件并打印文件名.思路很简单,如果是文件则判断是否满足条件:如果是目录则进入目录搜索文件,递归. ...
- chrome浏览器和其它浏览器对scrollTop、scrollLeft的获取方法
chrome浏览器不能通过document.documentElement.scrollTop来获得距上滚动距离,得到的值始终为0:需要用document.body.scrollTop来获取.其它浏览 ...
- Unity3D人脸建模 AvataSDK研究
1.Unity与windows交互 调用文件浏览器 1.用C#调用comdlg32.dll , 利用GetOpenFileName实现打开文件对话框 <1> 整体参考https://w ...
- @Transactional 事务说明
这里面有几点需要大家留意:A. 一个功能是否要事务,必须纳入设计.编码考虑.不能仅仅完成了基本功能就ok.B. 如果加了事务,必须做好开发环境测试(测试环境也尽量触发异常.测试回滚),确保事务生效.C ...
- hbuilder 打包 vueAPP
1:设置状态栏颜色 在manifest.json 找到 plus 下添加 "statusbar": { "immersed": true/*沉浸式状态栏*/ 设 ...
- TCP协议和UDP协议基础介绍
TCP协议和UDP协议区别 标签(空格分隔): TCP,udp TCP的三次握手 TCP被称为可靠的数据传输协议,主要是通过许多机制来实现的其中最主要的就是三次握手的功能,当然,TCP传送数据的机制非 ...