spark 源码安装

天之涯0204 2024-09-14 14:41:55 原文

clone 源码

git clone git://github.com/apache/spark.git

maven编译源码

国外镜像比较慢，此处修改maven仓库的镜像为阿里云镜像：

 <mirrors>

    <mirror>

      <id>alimaven</id>

      <name>aliyun maven</name>

      <url>http://maven.aliyun.com/nexus/content/groups/public/</url>

      <mirrorOf>central</mirrorOf>

    </mirror>

  </mirrors>

编译的时候内存设置大一点，以免内存溢出，导致编译失败，此处设置maven内存如下：

export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M

-XX:ReservedCodeCacheSize=512m"

mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 -DskipTests clean package

-Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 参考下面的链接：

https://spark.apache.org/docs/latest/building-spark.html#specifying-the-hadoop-version

-D系统参数，-P profile定义

查看hadoop版本：./hadoop version 或者 ./hdfs version

测试编译

./bin/run-example SparkPi 10

结果如下则编译没问题：

spark在yarn集群上的运行

注：spark在yarn上运行时不需要启动spark集群的，因为，spark任务是在yarn集群上运行的

在yarn上运行spark应用程序有两种方式，第一种是 cluster模式，第二种是client模式，

区别是cluster模式Spark driver运行在yarn集群上，client模式Spark driver运行在客户端进程中。

使用./bin/spark-submit向yarn集群提交spark应用，

$ ./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] <app jar> [app options]

--class：主类

--master：yarn指定在yarn上运行

--deploy-mode：部署模式cluster 指定为集群模式

app jar：应用程序打的jar包

应用实例：

./bin/spark-submit --class spark.examples.wordcount.WordCount --master yarn --deploy-mode  cluster wordcount.jar README.md

注：运行前请确保yarn的安装时正确的，结果可以在日志文件里面看到

客户端模式如下：

./bin/spark-shell --master yarn --deploy-mode client

./bin/spark-shell --class spark.examples.wordcount.WordCount --master yarn --deploy-mode client --jars wordcount.jar README.md

　　

spark 源码安装的更多相关文章

Apache Spark源码剖析
Apache Spark源码剖析(全面系统介绍Spark源码,提供分析源码的实用技巧和合理的阅读顺序,充分了解Spark的设计思想和运行机理) 许鹏著 ISBN 978-7-121-25420- ...
Spark源码在Eclipse中部署/编译/运行
(1)下载Spark源码到官方网站下载:Openfire.Spark.Smack,其中Spark只能使用SVN下载,源码的文件夹分别对应Openfire.Spark和Smack. 直接下载Openf ...
使用 IntelliJ IDEA 导入 Spark源码及编译 Spark 源代码
1. 准备工作首先你的系统中需要安装了 JDK 1.6+,并且安装了 Scala.之后下载最新版的 IntelliJ IDEA 后,首先安装(第一次打开会推荐你安装)Scala 插件,相关方法就不多 ...
Apache Spark源码走读之18 -- 使用Intellij idea调试Spark源码
欢迎转载,转载请注明出处,徽沪一郎. 概要上篇博文讲述了如何通过修改源码来查看调用堆栈,尽管也很实用,但每修改一次都需要编译,花费的时间不少,效率不高,而且属于侵入性的修改,不优雅.本篇讲述如何使用 ...
emacs+ensime+sbt打造spark源码阅读环境
欢迎转载,转载请注明出处,徽沪一郎. 概述 Scala越来越流行, Spark也愈来愈红火, 对spark的代码进行走读也成了一个很普遍的行为.不巧的是,当前java社区中很流行的ide如eclips ...
Spark源码分析环境搭建
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3868718.html 本文主要分享一下如何构建Spark源码分析环境.以前主要使用eclipse来阅读源 ...
Spark源码的编译过程详细解读(各版本)
说在前面的话重新试多几次.编译过程中会出现下载某个包的时间太久,这是由于连接网站的过程中会出现假死,按ctrl+c,重新运行编译命令. 如果出现缺少了某个文件的情况,则要先清理maven(使用命 ...
《Apache Spark源码剖析》
Spark Contributor,Databricks工程师连城,华为大数据平台开发部部长陈亮,网易杭州研究院副院长汪源,TalkingData首席数据科学家张夏天联袂力荐1.本书全面.系统地介绍了 ...
编译Spark源码
Spark编译有两种处理方式,第一种是通过SBT,第二种是通过Maven.作过Java工作的一般对于Maven工具会比较熟悉,这边也是选用Maven的方式来处理Spark源码编译工作. 在开始编译工作 ...

随机推荐

js获取当前对象的颜色判断改变颜色
function toHex(N) { if (N==null) return "00"; N=parseInt(N); if (N==0 || isNaN(N)) return ...
Build2016上值得一看的大数据相关Session
(此文章同时发表在本人微信公众号"dotNET每日精华文章",欢迎右边二维码来关注.) 题记:Build2016开完很久了,现在才来回顾下,就说说那些和大数据相关的Session, ...
吃透Javascript数组操作的正确姿势—再读《Js高程》
Javascript中关于数组对象的操作方法比较多也比较杂,正好再次捡起<Javascript高级程序设计>来读,把它们一一总结梳理了一下: 方法类别方法名称方法描述参数返回值备 ...
【MongoDB】5.MongoDB与java的简单结合
1.首先你的清楚你的MongoDB的版本是多少就下载对应的架包下载地址如下: http://mongodb.github.io/mongo-java-driver/ 2.新建一个项目把架包 ...
【DP】HDU 1176
HDU 1176 免费馅饼题意:中文题目不解释. 思路:因为是从中间出发所以思路卡了许久,还在之前做了道HIHO入门的题.能想到的点,从时间思考,然后初始化1s的时候,4,5,6,的数值要特别赋值. ...
python: DOM 小实例
一.全选全部取消反选全选:选择指定的所有项目. 全部取消: 取消所有选定的项目. 反选: 选择未选定的,之前已选定的则取消. <!DOCTYPE html> <html la ...
如何用最简单的方法将PCweb改成适合各种设备的web
使web页面自适应设备大小 1)用一个<div>包围<body>的内容 2)该div属性的宽度设为100% (宽度设为100%后,页面会随着设备窗口大小自动改变) 3)高度 ...
JS字符串格式化函数 string.format
原生JS写的仿C#的字符串format函数,在此基础上又增加了便于JS使用的字面量对象参数. 参照C#中的规则,调用的时候会检测字符串格式,如果字符串格式不规范,或者传入的参数为null或undefi ...
PHP 接入芝麻信用注意事项
芝麻官方下载的SDK,跑不起来,百度搜索一番也没有发现太多的文章 ,只有一个CSDN博客写的一篇文章,比较有参考价值详细查阅文档+几天测试整理以下几点注意事项: 接入芝麻API接口,应该分2步: 第 ...
CentOS下PHP7的编译安装，MySQL的支持和一些问题的解决
最近试了一下PHP7,在编译和支持MySQL上都遇到一些问题,相信不少同学也同样遇到,所以在这里聊一下这个过程.简单来讲编译PHP7只需要3步: 1../buildconf --force 2../c ...