Spark1.0.0 源码编译和部署包生成

问题导读：
1、如何对Spark1.0.0源码编译？
2、如何生成Spark1.0的部署包？
3、如何获取包资源？

Spark1.0.0的源码编译和部署包生成，其本质只有两种：Maven和SBT，只不过针对不同场景而已：
Maven编译
SBT编译
IntelliJ IDEA编译（可以采用Maven或SBT插件编译），适用于开发人员
部署包生成（内嵌Maven编译），适用于维护人员
编译的目的是生成指定环境下运行Spark本身或开发Spark Application的JAR包，本次编译的目的生成运行在hadoop2.2.0上的Spark JAR包。缺省编译所支持的hadoop环境是hadoop1.0.4。

1：获取Spark1.0.0 源码官网下载

2：SBT编译
将源代码复制到指定目录，然后进入该目录，运行：

SPARK_HADOOP_VERSION=2.2.0 SPARK_YARN=true sbt/sbt assembly

复制代码

3：Maven编译
事先安装好maven3.04或maven3.05，并设置要环境变量MAVEN_HOME，将$MAVEN_HOME/bin加入PATH变量。然后将源代码复制到指定目录，然后进入该目录，先设置Maven参数：

export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

复制代码

再运行：

mvn -Pyarn -Dhadoop.version=2.2.0 -Dyarn.version=2.2.0 -DskipTests clean package

复制代码

<ignore_js_op>

4：IntelliJ IDEA编译
IntelliJ IDEA是个优秀的scala开发IDE，所以顺便就提一下IntelliJ IDEA里的spark编译。
首先将源代码复制到指定目录，然后启动IDEA -> import project -> import project from external model -> Maven编译目录中的pom.xml -> 在选择profile时选择hadoop2.2 -> 直到导入项目。
<ignore_js_op>

在maven projects视图选择Spark Project Parent POM(root)，然后选中工具栏倒数第四个按钮（ship Tests mode）按下，这时Liftcycle中test是灰色的。
接着按倒数第一个按钮进入Maven设置，在runner项设置VM option：

-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m

复制代码

<ignore_js_op>

按OK 保存。
回到maven projects视图，点中Liftcycle中package，然后按第5个按钮（Run Maven Build按钮），开始编译。其编译结果和Maven编译是一样的。

5：生成spark部署包
编译完源代码后，虽然直接用编译后的目录再加以配置就可以运行spark，但是这时目录很庞大，又3G多吧，部署起来很不方便，所以需要生成部署包。
spark源码根目录下带有一个脚本文件make-distribution.sh可以生成部署包，其参数有：
--hadoop VERSION：打包时所用的Hadoop版本号，不加此参数时hadoop版本为1.0.4。
--with-yarn：是否支持Hadoop YARN，不加参数时为不支持yarn。
--with-hive：是否在Spark SQL 中支持hive，不加此参数时为不支持hive。
--skip-java-test：是否在编译的过程中略过java测试，不加此参数时为略过。
--with-tachyon：是否支持内存文件系统Tachyon，不加此参数时不支持tachyon。
--tgz：在根目录下生成 spark-$VERSION-bin.tgz，不加此参数时不生成tgz文件，只生成/dist目录。
--name NAME：和--tgz结合可以生成spark-$VERSION-bin-$NAME.tgz的部署包，不加此参数时NAME为hadoop的版本号。
如果要生成spark支持yarn、hadoop2.2.0的部署包，只需要将源代码复制到指定目录，进入该目录后运行：

./make-distribution.sh --hadoop 2.2.0 --with-yarn --tgz

复制代码

如果要生成spark支持yarn、hive的部署包，只需要将源代码复制到指定目录，进入该目录后运行：

./make-distribution.sh --hadoop 2.2.0 --with-yarn --with-hive --tgz

复制代码

如果要生成spark支持yarn、hadoop2.2.0、techyon的部署包，只需要将源代码复制到指定目录，进入该目录后运行：

./make-distribution.sh --hadoop 2.2.0 --with-yarn --with-tachyon --tgz

复制代码

生成在部署包位于根目录下，文件名类似于spark-1.0.0-bin-2.2.0.tgz。
值得注意的是：make-distribution.sh已经带有Maven编译过程，所以不需要先编译再打包。
资源下载包-较全

6：后记
解压部署包后或者直接在编译过的目录，通过配置conf下的文件，就可以使用spark了。
Spark有下列几种部署方式：
Standalone
YARN
Mesos
Amazon EC2
其实说部署，还不如说运行方式，Spark只是利用不同的资源管理器来申请计算资源。其中Standalone方式是使用Spark本身提供的资源管理器，可以直接运行；而在YARN运行，需要提供运行Spark Application的jar包（或者直接在NM节点上部署Spark）：
maven编译的jar包为：./assembly/target/scala-2.10/spark-assembly-1.0.0-hadoop2.2.0.jar
SBT编译的jar包为：./assembly/target/scala-2.10/spark-assembly-1.0.0-hadoop2.2.0.jar
具体使用参见：Spark1.0.0 YARN模式部署

TIPS:
众所周知的网络问题，编译的时候经常会发生卡死的现象，对于maven编译，只需要安ctrl+z结束进程重新编译就可以了；而对于sbt编译，由于有时候会有文件锁定的问题，在按ctrl+z结束进程后，最好退出终端后再开启一个新的终端进行编译

Spark1.0.0 源码编译和部署包生成的更多相关文章

英蓓特Mars board的android4.0.3源码编译过程
英蓓特Mars board的android4.0.3源码编译过程作者:StephenZhu(大桥++) 2013年8月22日若要转载,请注明出处一.编译环境搭建及要点: 1. 虚拟机软件virt ...
spark2.1.0的源码编译
本文介绍spark2.1.0的源码编译 1.编译环境: Jdk1.8或以上 Hadoop2.7.3 Scala2.10.4 必要条件: Maven 3.3.9或以上(重要) 点这里下载 http:// ...
非寻常方式学习ApacheTomcat架构及10.0.12源码编译
概述开启博客分享已近三个月,感谢所有花时间精力和小编一路学习和成长的伙伴们,有你们的支持,我们继续再接再厉 **本人博客网站 **IT小神 www.itxiaoshen.com 定义 Tomcat官 ...
解决Tomcat10.0.12源码编译问题进而剖析其优秀分层设计架构
概述 Tomcat.Jetty.Undertow这几个都是非常有名实现Servlet规范的应用服务器,Tomcat本身也是业界上非常优秀的中间件,简单可将Tomcat看成是一个Http服务器+Serv ...
android 5.0 (lollipop)源码编译环境搭建（Mac OS X)
硬件环境:MacBook Pro Retina, 13-inch, Late 2013 处理器 2.4 GHz Intel Core i5 内存 8 GB 1600 MHz DDR3 硬盘60G以 ...
hadoop2.0 eclipse 源码编译
在eclipse下编译hadoop2.0源码 http://www.cnblogs.com/meibenjin/archive/2013/07/05/3172889.html hadoop cdh4编 ...
Spark-2.0.2源码编译
注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6813925210731840013/ Spark官网下载地址: http://spark.apache.org/d ...
kafka 0.11.0.3 源码编译
首先下载 kafka 0.11.0.3 版本源码: http://mirrors.hust.edu.cn/apache/kafka/0.11.0.3/ 下载源码首先安装 gradle,不再说明 1 ...
anroid 6.0.1_r77源码编译
一.源码下载(基本类似4.4.4_r1) 二.必须使用openjdk1.7 sudo add-apt-repository ppa:openjdk-r/ppa sudo apt-get update ...

随机推荐

WPF 窗口
在WPF中,经常需要对窗口进行设置,下面讲讲常用的几个设置. 窗口样式 1.无边框窗口无边框透明窗体设置 WindowStyle="None"--无边框,如果需要其它按钮,如缩 ...
本地yum仓库搭建，使用163yum源
如果内部网络没有连接Internet就在本地配置yum仓库将操作系统镜像上传到服务器中,进行挂载 mount –o loop rhel-server-6.7-x86_64-dvd.iso /mnt ...
AnnotationConfigBeanDefinitionParser are only available on JDK 1.5 and higher
報錯: org.springframework.beans.factory.BeanDefinitionStoreException: Unexpected exception parsing XML ...
SpringBoot中并发定时任务的实现、动态定时任务的实现（看这一篇就够了）
原创不易,如需转载,请注明出处https://www.cnblogs.com/baixianlong/p/10659045.html,否则将追究法律责任!!! 一.在JAVA开发领域,目前可以通过以下 ...
6、两个数组的交集 II
6.两个数组的交集 II 给定两个数组,编写一个函数来计算它们的交集. 示例 1: 输入: nums1 = [1,2,2,1], nums2 = [2,2] 输出: [2,2] 示例 2: 输入: n ...
python进程基础
目录进程以及状态 1. 进程 2. 进程的状态进程的创建-multiprocessing 1. 创建进程 2. 进程pid 3. Process语法结构如下 4. 给子进程指定的函数传递参数 5. ...
使用CSS实现无滚动条滚动
我们都知道,撸页面的时候当我们的内容超出了我们的div,往往会出现滚动条,影响美观. 尤其是当我们在做一些导航菜单的时候.滚动条一出现就破坏了UI效果. 我们不希望出现滚动条,也不希望超出去的内容被放 ...
canvas-7global.html
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
JAVA 多线程（1）：synchronized
入坑3年,对线程总是一知半解,最多停留在copy,决定还是仔细看看这方面的东西,一点点的记录让自己理解,对一些重要的概念进行记录和理解(包括参考作者的原话与个人理解) 参考链接:https://www ...
TCP/UDP 协议
传输层建立端口到端口的通信. 网络层的 ip 为我们区分子网,以太网层的 mac 帮我们找到主机.然后大家使用的都是应用程序,你的电脑上可能同时开启qq,暴风影音,等多个应用程序,那么我们通过ip和m ...

Spark1.0.0 源码编译和部署包生成

Spark1.0.0 源码编译和部署包生成的更多相关文章

随机推荐

热门专题