1、Spark 2.1 源码编译支持CDH

目前CDH支持的spark版本都是1.x，如果想要使用spark 2x的版本，只能编译spark源码生成支持CDH的版本。

一、准备工作

找一台Linux主机，由于spark源码编译会下载很多的第三方类库包，因此需要主机能够联网。

1、安装Java，配置环境变量，版本为JDK1.7或者以上

下载地址：http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html

export JAVA_HOME=/usr/java/default

export JRE_HOME=/usr/java/default/jre

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib:$CLASSPATH

export PATH=$JAVA_HOME/bin:$PATH

2、安装Maven，版本为3.3.9或者以上

下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache//maven/maven-3/3.3.9/binaries/

export MAVEN_HOME=/usr/local/apache-maven-3.3.9

export PATH=$MAVEN_HOME/bin:$PATH

二、编译Spark的源码包

1、下载spark 2.1.0的源码包

2、增加cdh的repository

解压spark的源码包，编辑pom.xml文件，在repositories节点加入如下配置：

    <repository>

        <id>cloudera</id>

        <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>

    </repository>

3、开始编译

./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz  -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0

在编译过程中，可能会出现各种莫名其妙的原因导致中断，只需要重新执行上面的编译命令即可，第一编译可能需要几个小时，第一次编译成功后，后面再编译就很快了。

编译成功后，可以看到如下：

编译成功后，可以看到生成了tar包：

三、测试

1、提交到yarn上面

需要配置HADOOP_CONF_DIR或者YARN_CONF_DIR环境变量：

# export HADOOP_CONF_DIR=/etc/hadoop/conf

val file=spark.sparkContext.textFile("/tmp/appveyor.yml")

val wc = file.flatMap(line => line.split(",")).map(word=>(word,1)).reduceByKey(_ + _)

2、访问hive的表

需要将hive的hive-site.xml复制到spark的conf目录下面。

scala> spark.sql("select * from iot.tp").collect().foreach(println)

1、Spark 2.1 源码编译支持CDH的更多相关文章

dhcp源码编译支持4G上网卡
1. tar xvzf dhcp-4.2.5-P1.tar.gz 2. ./configure --host=arm-linux ac_cv_file__dev_random=yes 3. vi bi ...
Spark环境搭建（六）-----------sprk源码编译
想要搭建自己的Hadoop和spark集群,尤其是在生产环境中,下载官网提供的安装包远远不够的,必须要自己源码编译spark才行. 环境准备: 1,Maven环境搭建,版本Apache Maven 3 ...
基于cdh5.10.x hadoop版本的apache源码编译安装spark
参考文档:http://spark.apache.org/docs/1.6.0/building-spark.html spark安装需要选择源码编译方式进行安装部署,cdh5.10.0提供默认的二进 ...
Spark记录-源码编译spark2.2.0（结合Hive on Spark/Hive on MR2/Spark on Yarn）
#spark2.2.0源码编译 #组件:mvn-3.3.9 jdk-1.8 #wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark- ...
Spark 2.1.1 源码编译
Spark 2.1.1 源码编译标签(空格分隔): Spark Spark 源码编译环境准备与起因由于线上Spark On Yarn Spark Streaming程序在消费kafka 写入HD ...
Apache Spark源码走读之9 -- Spark源码编译
欢迎转载,转载请注明出处,徽沪一郎. 概要本来源码编译没有什么可说的,对于java项目来说,只要会点maven或ant的简单命令,依葫芦画瓢,一下子就ok了.但到了Spark上面,事情似乎不这么简单 ...
Spark源码编译
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3822995.html spark源码编译步骤如下: cd /home/hdpusr/workspace ...
spark源码编译记录
spark在项目中已经用了一段时间了,趁现在空闲,下个源码编译在IDEA里面阅读下,特此记录过程. 前提已经安装maven和git 1.上官网下载源码的包: 2.然后解压到一个文件夹 3.编译,编译的 ...
centos7.6环境zabbix3.2源码编译安装版升级到zabbix4.0长期支持版
zabbix3.2源码编译安装版升级到zabbix4.0长期支持版项目需求: .2版本不再支持,想升级成4.0的长期支持版环境介绍: zabbix服务端是编译安装的,数据库和web在一台机器上整 ...

随机推荐

bs4-BeautifulSoup
1.BeautifulSoup下载 pip install BeautifulSoup4 或者 pip install bs4 pip install lxml #解析器 2.BeautifulSou ...
小白系统篇-windows 系统安装
现阶段装系统的方法基本有几种1.硬盘安装2.光驱安装3.PE(u盘即可)安装现在比较主流方便的用pe安装,所以我们这边就说一下PE安装系统的方法首先我们了解下系统镜像,也就是你装系统所需得到文件( ...
js 设计模式——状态模式
状态模式允许一个对象在其内部状态改变时改变它的行为,对象看起来似乎修改了它的类. 简单的解释一下: 第一部分的意思是将状态封装成独立的类,并将请求委托给当前的状态对象,当对象的内部状态改变时,会带来 ...
app发布当天，用户无法登录
原因:当用户登录时候有商城用户的触发器存在,它会让商城用户也更新成登录状态. 由于用户量大,导致数据库锁死. 最后解决案:删掉触发器,在app的接口登录程序里,追加商城用户更新成登录的操作. 他案1: ...
JSON格式提取相同属性的某个值
[ {UID:"222",value:"111"}, {UID:"222",value:"103"}, {UID:&qu ...
d3.js V5版本在vue里使用自定义节点图片
var width = this.$refs.topInfo.offsetWidth; var height = this.$refs.topInfo.offsetHeight; var img_w ...
.NET CORE 怎么样从控制台中读取输入流
.NET CORE 怎么样从控制台中读取输入流从Console.ReadList/Read 的源码中,可学习到.NET CORE 是怎么样来读取输入流. 也可以学习到是如何使用P/Invoke来调用 ...
ZOJ3435
题意略. 思路: 将每一个点的坐标 (x,y,z) 与 (1,1,1) 相减,得到向量 (x - 1,y - 1,z - 1) 我们实际上就是要求出这样互质的三元组有多少对就行了. 我们把这个长方体 ...
CSS文件引入link和@import 区别
1.(本质区别)link 属于 HTML 标签,而 @import 完全是 css 提供的一种导入 css 文件的规则. 2.文件加载时机有差别: 当一个页面被加载的时候,link 引用的 css 会 ...
小白专场-多项式乘法与加法运算-c语言实现
目录一.题意理解二.求解思路三.多项式的表示 3.1 数组 3.2 链表四.程序框架搭建五.如何读入多项式六.如何将两个多项式相加七.如何将两个多项式相乘八.如何将多项式输出一.题意 ...