Spark动态加载外部资源文件

1、spark-submit --files 动态加载外部资源文件

之前做一个关于Spark的项目时，因项目中需要读取某个静态资源文件，然后在本地IDEA测试一切皆正常，但是传到服务器上时，一直显示找不到该静态资源文件，后尝试了两三种方法解决问题。

本地测试时，通过

val is: InputStream = this.getClass.getResourceAsStream(“./xxx.sql”)

来获取的静态资源文件，传至服务器后，找不到该静态资源文件。

遂尝试将文件传至HDFS，然后通过读取hdfs的文件来获取静态资源文件。

val gs = sc.textFile("hdfs://master:9000/user/resources/xxx.txt").first()

下部分原文作者：大葱拌豆腐

原文地址：spark-submit --files 动态加载外部资源文件

1、spark-submit --files 动态加载外部资源文件

spark时，有些时候需要加载资源文件，需要在driver或者worker端访问。在client模式下可以使用IO流直接读取,但是在cluster模式下却不能直接读取，需要如下代码：

val is: InputStream = this.getClass.getResourceAsStream(“./xxx.sql”)

val bufferSource = Source.fromInputStream(is)

这是直接读取classPath路径下的文件,但是cluster模式下，driver有可能不再程序提交的客户端上，以上代码会发生空指针异常。这是，就需要通过–files把外部资源文件加载到classpath路径下。正常情况加载—files filename1,filename2…,当知道外部源文件都是有哪些时，直接列举出来就可以。但是在某些情况下，开发者开发的是一个通用工具，不知到所要加载的是一个什么文件。这时就需要动态加载，我曾尝试过使用–files …/xxx/*.sql，这个可以动态加载指定目录下数据。但是后来发现，这样加载只能加载一个文件，文件夹中超过多余一个文件就会报错。试了很多种方式也没有测试成功。最后通过shell脚本列举文件夹中的文件拼装成字符串，才算完成。

程序打包目录如下：

代码实现如下：

##########################################################################################

####由于spark2_submit --files /../*.sql 不能加载多个文件所以只能拼装script路径下的文件####

##########################################################################################

###获取当前项目绝对路径###

#project_home=$(dirname $(readlink -f "$0"))"/.."

project_home="$(readlink -f $(cd "`dirname "$0"`"/..; pwd))"

###获取script绝对路径###

script_path=${project_home}"/script/"

###获取项目中script目录下所有的脚本文件

files=$(ls $script_path);

files=${files// / };

file_arr=($files);

files_str=""

for ele in ${file_arr[*]}

do

  file_str=${file_str}${script_path}${ele},

done

len=`expr ${#file_str} - 1`

file_str=`expr substr "$file_str" 1 $len`

echo $file_str

/usr/bin/spark2-submit  --executor-memory 15G   \

        --master yarn   \

        --queue dataengine \

        --files $project_home/script/* \

        --executor-cores 5      \

        --driver-cores 3  \

        --name AutoScript  \

        --deploy-mode cluster   \

        --class xx.xx.xxx       \

        --driver-memory 10G      \

        --conf "spark.dynamicAllocation.executorIdleTimeout=300"   \

        --conf "spark.shuffle.file.buffer=16k"  \

        --conf "spark.yarn.appMasterEnv.JAVA_HOME=/opt/jdk1.8.0_45"     \

        --conf "spark.dynamicAllocation.minExecutors=11" \

        --conf "spark.dynamicAllocation.maxExecutors=11" \

        --conf "spark.speculation.quantile=0.85"        \

        --conf "spark.executorEnv.JAVA_HOME=/opt/jdk1.8.0_45"   \

        --conf "spark.executor.extraJavaOptions=-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintTenuringDistribution -XX:+UseG1GC "     \

        --conf "spark.executor.extraJavaOptions=-XX:+UseG1GC "     \

        --conf "spark.driver.extraClassPath=/home/sunkl/hive-exec-1.1.0-cdh5.7.6.jar" \

        --conf "spark.speculation=true" \

        --conf "spark.rpc.askTimeout=400" \

        --conf "spark.shuffle.service.enabled=true"     \

        $project_home/lib/******.jar

Spark动态加载外部资源文件的更多相关文章

spark-submit --files 动态加载外部资源文件
在做spark时,有些时候需要加载资源文件,需要在driver或者worker端访问.在client模式下可以使用IO流直接读取,但是在cluster模式下却不能直接读取,需要如下代码: val is ...
使用js加载器动态加载外部Javascript文件
原文:http://www.cnblogs.com/xdp-gacl/p/3927417.html 今天在网上找到了一个可以动态加载js文件的js加载器,具体代码如下: JsLoader.js var ...
Unity3D动态加载外部资源
最近一直在和这些内容纠缠,把心得和大家共享一下: Unity里有两种动态加载机制:一是Resources.Load,一是通过AssetBundle,其实两者本质上我理解没有什么区别.Resources ...
不停服务，动态加载properties资源文件
系统运行过程中,我们用注解@Value("${****}")可以获取资源文件中的内容,获取的内容会被存储在spring缓存中,因此如果我们修改了资源文件,要想读取到修改后的内容 ...
JavaScript学习总结(十九)——使用js加载器动态加载外部Javascript文件
今天在网上找到了一个可以动态加载js文件的js加载器,具体代码如下: JsLoader.js 1 var MiniSite=new Object(); 2 /** 3 * 判断浏览器 4 */ 5 M ...
Silverlight实用窍门系列：2.Silverlight动态加载外部XML指定地址的WebService---（动态加载外部XML文件中指定的WebService地址）【附带实例源码】
接上节所讲的,Silverlight可以加载外部的XML文件里面的内容,那么我们可不可以在外部XML里面配置一个WebService地址,并且以此加载这个地址来动态加载WebService呢?这样子就 ...
使用js加载器动态加载外部js、css文件
let MiniSite = new Object(); /** * 判断浏览器 */ MiniSite.Browser = { ie: /msie/.test(window.navigator.us ...
转载：Flash AS3.0 加载外部资源(图片,MP3,SWF)的两种方式
Flash AS3.0 加载外部资源(图片,MP3,SWF)的两种方式出自:http://www.cnblogs.com/top5/archive/2012/08/04/2623464.html 关 ...
JBoss 系列十四：JBoss7/WildFly如何加载外部的文件或properties文件
http://www.tuicool.com/articles/M7ZR3y 原文 http://blog.csdn.net/kylinsoong/article/details/12623997 主 ...

随机推荐

Markdown高级使用之流程图
流程图在Markdown中的的表现形式就是代码块,代码块语言标记为mermaid.主要内容大体分为:方向.节点.节点间的连接关系,下面就围绕这三个点来整理. mermaid支持流程图.甘特图和时序图, ...
Servlet3.0提供的@WebServlet注解引用参数详情介绍
Servlet3.0提供的@WebServlet注解: servlet3.0所提供的@webservlet注解,用来将某个类注解为一个servlet类,简化了web.xml上的servlet配置, @ ...
java的多线程:线程基础
1.线程与进程区别每个正在系统上运行的程序都是一个进程.每个进程包含一到多个线程.线程是一组指令的集合,或者是程序的特殊段,它可以在程序里独立执行.也可以把它理解为代码运行的上下文.所以线程基本上是 ...
docker nginx 自定义配置容器
准备拉取nginx官方镜像 docker pull nginx etc/nginx/ 下新建目录 cert 和 conf cert 存放证书 conf 存放配置文件 mkdir /etc/nginx ...
Java实现PDF和Excel生成和数据动态插入以及导出
一.序言 Excel.PDF的导出.导入是我们工作中经常遇到的一个问题,刚好今天公司业务遇到了这个问题,顺便记个笔记以防下次遇到相同的问题而束手无策. 公司有这么两个需求: 需求一.给了一个表单,让把 ...
【Java集合】HashSet源码解析以及HashSet与HashMap的区别
HashSet 前言 HashSet是一个不可重复且元素无序的集合.内部使用HashMap实现. 我们可以从HashSet源码的类注释中获取到如下信息: 底层基于HashMap实现,所以迭代过程中不能 ...
【Linux】if中的逻辑运算符怎么在linux的帮助中看到
今天在写shell的时候,突然想查看下if相关的一些逻辑运算的,像-f -d之类的这种于是man if 或者if --help 可是返回的信息却都无济于事,一点帮助都没有回想一下,if中调的判断 ...
【Linux】Linux进程间通信的几种方式
一.进程间通信的目的数据传输:一个进程需要将它的数据发送给另一个进程,发送的数据量在一个字节到几M字节之间共享数据:多个进程要操作共享数据,一个进程对共享数据信息传递:一个进程需要向另一个进程发 ...
Databricks 第8篇：把Azure Data Lake Storage Gen2 (ADLS Gen 2)挂载到DBFS
DBFS使用dbutils实现存储服务的装载(mount.挂载),用户可以把Azure Data Lake Storage Gen2和Azure Blob Storage 账户装载到DBFS中.mou ...
Linux内核分析_课程学习总结报告
请您根据本课程所学内容总结梳理出一个精简的Linux系统概念模型,最大程度统摄整顿本课程及相关的知识信息,模型应该是逻辑上可以运转的.自洽的,并举例某一两个具体例子(比如读写文件.分配内存.使用I/O ...

Spark动态加载外部资源文件

Spark动态加载外部资源文件

1、spark-submit --files 动态加载外部资源文件

Spark动态加载外部资源文件的更多相关文章

随机推荐

热门专题