sbt assembly a fat jar for spark-submit cluster model

在用spark-submit提交作业时，用sbt package打包好的jar程序，可以很好的运行在client模式，当在cluster模式，

一直报错：Exception in thread "main" java.lang.ClassNotFoundException。决定利用sbt assembly插件把所有的依赖打成一个jar。

我的工程结构：

　　myProject/build.sbt

　　myProject/project/assembly.sbt

　　myProject/src/main/scala/com/lasclocker/java/SparkGopProcess.java

上面褐色部分是java源程序的包名。

build.sbt的内容：

lazy val root = (project in file(".")).

  settings(

    name := "my-project",

    version := "1.0",

    scalaVersion := "2.11.7",

    mainClass in Compile := Some("com.lasclocker.java.SparkGopProcess")  // 这里是主类名字

  )


autoScalaLibrary := false     // exclude scala library

libraryDependencies += "org.apache.spark" %% "spark-core" % "1.4.1" % "provided"    // exclude spark library

unmanagedBase := baseDirectory.value / "custom_spark_lib"  // 这里是第三方依赖包，我直接放在myProject的custom_spark_lib目录下面

// META-INF discarding

mergeStrategy in assembly <<= (mergeStrategy in assembly) { (old) =>

   {

    case PathList("META-INF", xs @ _*) => MergeStrategy.discard

    case x => MergeStrategy.first

   }

}

其中custom_spark_lib目录下的jar包有：guava-10.0.1.jar, hadoopCustomInputFormat.jar.

assembly.sbt的内容：

addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "0.12.0")

在myProject目录下，执行：

sbt clean assembly

最后生成a fat jar包：target/scala-2.11/my-project-assembly-1.0.jar.

最后附上我的spark-submit cluster模式的shell脚本(脚本中的ip地方被xx了)：

inPath=/LPR

outPath=/output

minPartitionNum=

sparkURL=spark://xx.xx.xx.xx:7077

hdfsFile=hdfs://xx.xx.xx.xx:9000/user/root

ldLib=/opt/hadoop/lib #这里放一些动态库, 比如JNI中的.so文件            

spark-submit \

 --class ${yourAppClass} \

 --master ${sparkURL} \

 --driver-library-path $ldLib \

 --deploy-mode cluster \

 $hdfsFile/my-project-assembly-1.0.jar $inPath $outPath $minPartitionNum

参考： sbt-assembly, How to build an Uber JAR (Fat JAR) using SBT within IntelliJ IDEA?

sbt assembly a fat jar for spark-submit cluster model的更多相关文章

【原创】大数据基础之Spark（1）Spark Submit即Spark任务提交过程
Spark2.1.1 一 Spark Submit本地解析 1.1 现象提交命令: spark-submit --master local[10] --driver-memory 30g --cla ...
spark submit参数及调优
park submit参数介绍你可以通过spark-submit --help或者spark-shell --help来查看这些参数. 使用格式: ./bin/spark-submit \ ...
关于 maven 打包直接运行的 fat jar (uber jar) 时需要包含本地文件系统第三方 jar 文件的问题
关于maven打包fat jar (uber jar) 时需要包含本地文件系统第三方jar文件的问题,今天折腾了一整天.最后还是用了spring boot来做.下面是几篇关于打包的有参考价值的文章,以 ...
spark submit参数及调优(转载)
spark submit参数介绍你可以通过spark-submit --help或者spark-shell --help来查看这些参数. 使用格式: ./bin/spark-submit \ -- ...
SBT安装及命令行打包spark程序
1.从https://www.scala-sbt.org/download.html官网上寻找所需要的安装包可以直接本地下载完扔进去也可以wget路径,在这里我用的是sbt1.2.8版本的,下载到/ ...
Eclipse打JAR包，插件Fat Jar的安装与使用
Eclipse可以安装一个叫Fat Jar的插件,用这个插件打包非常方便,Fat Jar的功能非常强大首先要下载Fat Jar,下载地址:https://sourceforge.net/project ...
SBT Assembly - Deduplicate error & Exclude error
sbt assembly java.lang.RuntimeException: deduplicate: different file contents found in the following ...
netbeans下将全部jar包打成一个，俗称fat jar
netbeans的java项目中.默认会将配置好的外部引用jar包,复制到dist文件夹的lib文件夹中去.假设须要公布出去.就须要将dist文件夹生成的jar和lib文件夹都拷贝出去公布,不方便. ...
Eclipse下使用Fat Jar插件对源代码进行打包
这两天需要对一个项目进行打包,并在服务器上部署成后台服务模式进行执行,原来使用eclipse进行打包很难用,配置文件容易出错,生成的jar不能正常运行.后来发现Fat Jar Eclipse Plug ...

随机推荐

二、安装JDK - Java软件的安装
jdk是 Java 语言的软件开发工具包,主要用于移动设备.嵌入式设备上的java应用程序. 1.安装包的下载:http://pan.baidu.com/s/1mgh58ve (该安装包是绿色的,解压 ...
大数据之路week01--day02我实在时被继承super这些东西搞的头疼，今天来好好整理以下。
这一周的第一天的内容是面向对象的封装,以及对方法的调用.实在时没法单独拿出来单说,就结合这一节一起说了. 我实在是被继承中的super用法给弄的有点晕,程序总是不能按照我想的那样,不是说结果,而是实现 ...
egret Tiledmap编写障碍物的思路
egret Tiledmap编写障碍物的思路获取控制对象下一刻移动的坐标,将其转换成瓦片坐标,如果getTileGIDAt(根据瓦片坐标获取瓦片id)的值不为0,说明对象将要移动的位置有障碍物,不做 ...
shell的运用 : jenkins 编译打包前端发布生产（tomcat）
生产隔离做得非常.....文件上传只能通过固定ip机器的sftp账户上传,账户密码每个月要写申请才能获得. 登陆生产服务只能通过浏览器登陆!!! 发布一次生产,很痛苦. 做了简单的shell来减轻痛苦 ...
如何构建自己的 react hooks
我们组的前端妹子在组内分享时谈到了 react 的钩子,趁此机会我也对我所理解的内容进行下总结,方便更多的同学了解.在 React 的 v16.8.0 版本里添加了 hooks 的这种新的 API,我 ...
Ubuntu 16.04安装JDK并配置环境变量
系统版本:Ubuntu 16.04 JDK版本:jdk1.8.0_121 1.官网下载JDK文件jdk-8u121-linux-x64.tar.gz 我这里下的是最新版,其他版本也可以 2.创建一个目 ...
windows7设置定时任务运行ThinkPHP框架程序
1. 设置Windows的任务计划可以参考win7计划任务的设置方法 2. 新建Windows执行文件bat 新建cron.bat文件,内容如下: D: cd \wamp\www\tp32 D:\w ...
理解Spark运行模式（一）(Yarn Client)
Spark运行模式有Local,STANDALONE,YARN,MESOS,KUBERNETES这5种,其中最为常见的是YARN运行模式,它又可分为Client模式和Cluster模式.这里以Spar ...
Python3.7.1学习(八) Python访问SQL Server数据库
一.pip install pymssql即可安装pymssql库二.Python连接SQL Server数据库实例代码如下: # -*- coding:utf-8 -*-"&q ...
详解Redis RDB持久化、AOF持久化
1.持久化 1.1 持久化简介持久化(Persistence),持久化是将程序数据在持久状态和瞬时状态间转换的机制,即把数据(如内存中的对象)保存到可永久保存的存储设备中(如磁盘). 1.2 red ...

sbt assembly a fat jar for spark-submit cluster model

sbt assembly a fat jar for spark-submit cluster model的更多相关文章

随机推荐

热门专题