idea或者java远程提交spark任务到yarn,Exception1

spark通過idea远程提交job到yarn: Caused by: java.lang.ClassCastException: cannot assign instance of scala.collection.immutable.List$SerializationProxy to field org.apache.spark.rdd.RDD.org$apache$spark$rdd$RDD$$dependencies_ of type scala.collection.Seq in i…

Idea里面远程提交spark任务到yarn集群

Idea里面远程提交spark任务到yarn集群 1.本地idea远程提交到yarn集群 2.运行过程中可能会遇到的问题 2.1首先需要把yarn-site.xml,core-site.xml,hdfs-site.xml放到resource下面,因为程序运行的时候需要这些环境 2.2权限问题 2.3缺失环境变量 2.4 没有设置driver的ip 2.5保证自己的电脑和虚拟机在同一个网段内,而且要关闭自己电脑的防火墙,不然可能会出现连接不上的情况. 作者:JasonLee 1.本地idea远程提…

如何在Java应用中提交Spark任务？

最近看到有几个Github友关注了Streaming的监控工程--Teddy,所以思来想去还是优化下代码,不能让别人看笑话,是不.于是就想改在一下之前最丑陋的一个地方--任务提交本博客内容基于Spark2.2版本~在阅读文章并想实际操作前,请确保你有: 一台配置好Spark和yarn的服务器支持正常spark-submit --master yarn xxxx的任务提交老版本老版本任务提交是采用启动本地进程,执行脚本spark-submit xxx的方式做的.其中一个关键的问题就是获得提…

Spark2.x（五十九）：yarn-cluster模式提交Spark任务，如何关闭client进程?

问题: 最近现场反馈采用yarn-cluster方式提交spark application后,在提交节点机上依然会存在一个yarn的client进程不关闭,又由于spark application都是spark structured streaming程序(application常年累月的执行),最终导致spark application提交节点服务器资源被占满,当执行其他操作时,会出现以下错误: [dx@my-linux-01 bin]$ yarn logs -applicationId ap…

利用SparkLauncher 类以JAVA API 编程的方式提交Spark job

一.环境说明和使用软件的版本说明: hadoop-version:hadoop-2.9.0.tar.gz spark-version:spark-2.2.0-bin-hadoop2.7.tgz java-version:jdk1.8.0_151 集群环境:单机伪分布式环境. 二.适用背景在学习Spark过程中,资料中介绍的提交Spark Job的方式主要有两种(我所知道的):第一种是通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交,官网和大多数参考资料都是已这…

客户端用java api 远程操作HDFS以及远程提交MR任务(源码和异常处理)

两个类,一个HDFS文件操作类,一个是wordcount 词数统计类,都是从网上看来的.上代码: package mapreduce; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.BlockLocation; import org.apac…

（二）win7下用Intelij IDEA 远程调试spark standalone 集群

关于这个spark的环境搭建了好久,踩了一堆坑,今天环境: WIN7笔记本 spark 集群(4个虚拟机搭建的) Intelij IDEA15 scala-2.10.4 java-1.7.0 版本问题: 个人选择的是hadoop2.6.0 spark1.5.0 scala2.10.4 jdk1.7.0 关于搭建集群环境,见个人的上一篇博客:(一) Spark Standalone集群环境搭建,接下来就是用Intelij IDEA来远程连接spark集群,这样就可以方便的在本机上进行调试.…

Eclipse远程提交hadoop集群任务

文章概览: 1.前言 2.Eclipse查看远程hadoop集群文件 3.Eclipse提交远程hadoop集群任务 4.小结 1 前言 Hadoop高可用品台搭建完备后,参见<Hadoop高可用平台搭建>,下一步是在集群上跑任务,本文主要讲述Eclipse远程提交hadoop集群任务. 2 Eclipse查看远程hadoop集群文件 2.1 编译hadoop eclipse 插件 Hadoop集群文件查看可以通过webUI或hadoop Cmd,为了在Eclipse上方便增删改查集群文件…

【Spark】提交Spark任务-ClassNotFoundException-错误处理

提交Spark任务-ClassNotFoundException-错误处理 Overview - Spark 2.2.0 Documentation Spark Streaming - Spark 2.2.0 Documentation Spark Streaming + Kafka Integration Guide - Spark 2.2.0 Documentation Spark Streaming + Kafka Integration Guide (Kafka broker versi…

Spark提交任务(Standalone和Yarn)

Spark Standalone模式提交任务 Cluster模式: ./spark-submit \--master spark://node01:7077 \--deploy-mode cluster --class org.apache.spark.examples.SparkPi \--driver-memory 1g \ --executor-memory 1g \ --executor-cores 2 \ ../lib/spark-examples-1.6.0-hadoop2.6.…

livy提交spark应用

spark-submit的使用shell时时灵活性较低,livy作为spark提交的一种工具,是使用接口或者java客户端的方式提交,可以集成到web应用中 1.客户端提交的方式 http://livy.incubator.apache.org/docs/latest/programmatic-api.html 核心代码 LivyClient client = new LivyClientBuilder() .setURI(new URI(livyUrl)) .build(); try {…

提交Spark作业遇到的NoSuchMethodError问题总结

测试应用说明测试的Spark应用实现了同步hive表到kafka的功能.具体处理流程: 从 ETCD 获取 SQL 语句和 Kafka 配置信息使用 SparkSQL 读取 Hive 数据表把 Hive 数据表的数据写入 Kafka 应用使用etcd来存储程序所需配置,通过拉取etcd的kv配置,来初始化sql语句和kafka配置的参数. 提交方式及相应的问题使用client模式,提交无依赖的jar包提交命令 /usr/local/spark-2.3.0-bin-2.8.2/bin/s…

【Java远程debug】

转自 http://blog.csdn.net/hongchangfirst/article/details/44191925 一.远程debug原理 Java远程调试的原理是两个JVM之间通过debug协议进行通信,然后以达到远程调试的目的.两者之间可以通过socket进行通信. 被debug的机器需要开启debug模式,debug使用的客户端可以是eclipse,总之我使用eclipse已经成功了. 二.操作步骤 1.服务端设置由于我们经常将程序部署到linux机器上,所以通常使用的是wa…

Spark On Yarn：提交Spark应用程序到Yarn

转载自:http://lxw1234.com/archives/2015/07/416.htm 关键字:Spark On Yarn.Spark Yarn Cluster.Spark Yarn Client Spark On Yarn模式配置非常简单,只需要下载编译好的Spark安装包,在一台带有Hadoop Yarn客户端的机器上解压,简单配置之后即可使用. 要把Spark应用程序提交到Yarn运行,首先需要配置HADOOP_CONF_DIR或者YARN_CONF_DIR,让Spark知道Yar…

怎样通过Java程序提交yarn的mapreduce计算任务

因为项目需求,须要通过Java程序提交Yarn的MapReduce的计算任务.与一般的通过Jar包提交MapReduce任务不同,通过程序提交MapReduce任务须要有点小变动.详见下面代码. 下面为MapReduce主程序,有几点须要提一下: 1.在程序中,我将文件读入格式设定为WholeFileInputFormat,即不正确文件进行切分. 2.为了控制reduce的处理过程.map的输出键的格式为组合键格式. 与常规的<key,value>不同,这里变为了<TextPair,Va…

JAVA远程执行Shell脚本类

1.java远程执行shell脚本类 package com.test.common.utility; import java.io.IOException; import java.io.InputStream; import java.io.UnsupportedEncodingException; import java.nio.charset.Charset; import org.apache.commons.io.IOUtils; import org.apache.commons.…

[转]Java远程方法调用

Java远程方法调用,即Java RMI(Java Remote Method Invocation)是Java编程语言里,一种用于实现远程过程调用的应用程序编程接口.它使客户机上运行的程序可以调用远程服务器上的对象.远程方法调用特性使Java编程人员能够在网络环境中分布操作.RMI全部的宗旨就是尽可能简化远程接口对象的使用. Java RMI极大地依赖于接口.在需要创建一个远程对象的时候,程序员通过传递一个接口来隐藏底层的实现细节.客户端得到的远程对象句柄正好与本地的根代码连接,由后者负责透过…

GIT 如何合并另一个远程Git仓库的文件到本地仓库里某个指定子文件夹并不丢失远程提交记录？

问题背景: 最近在重新整理手中的一个项目,目前该项目分为PC项目,手机项目,某第三方接口项目,第三方接口服务项目和手机项目因为之前规划的原因,原来的四个项目是分两个解决方案来管理的 PC解决方案: #PC解决方案,2015年从Vss迁移到Git 一共三个项目 #F:\WWW\F.COM\WWW Flight.sln Flight.suo Web #PC项目 Qr #第三方接口项目 2015年新增项目,也使用PC解决方案但用分支进行管理,维护单独的通用项目,目前已经将通用…

Java远程方法协议(JRMP)

Java远程方法协议(英语:Java Remote Method Protocol,JRMP)是特定于Java技术的.用于查找和引用远程对象的协议.这是运行在Java远程方法调用(RMI)之下.TCP/IP之上的线路层协议. JRMP是一个Java特有的.适用于Java之间远程调用的基于流的协议,要求客户端和服务器上都使用Java对象.…

Java远程调试 java -Xdebug各参数说明

JAVA自身支持调试功能,并提供了一个简单的调试工具--JDB,类似于功能强大的GDB,JDB也是一个字符界面的调试环境,并支持设置断点,支持线程线级的调试 JAVA的调试方法如下: 1.首先支持JVM,并设置参数,使之工作在DEBUG模式下,加入参数: -Xdebug -Xrunjdwp,transport=dt_socket,server=y,address=,suspend=n,onthrow=java.io.IOException,launch=/sbin/echo 其中, -Xdeb…

java远程调用rmi入门实例

RMI是Java的一组拥护开发分布式应用程序的API.RMI使用Java语言接口定义了远程对象,它集合了Java序列化和Java远程方法协议(Java Remote Method Protocol).简单地说,这样使原先的程序在同一操作系统的方法调用.变成了不同操作系统之间程序的方法调用.因为J2EE是分布式程序平台.它以RMI机制实现程序组件在不同操作系统之间的通信. 比方,一个EJB能够通过RMI调用Web上还有一台机器上的EJB远程方法. 用例server端结构大概如此首先定义要传送的实…

Github的使用/git远程提交代码到Github

Github的使用/git远程提交代码到Github Github是全球最大的社交编程及代码托管网站 Git是一个开源的分布式版本控制系统 1.基本概念 Repository(仓库):仓库用于存放项目代码,一个项目对应一个仓库 Star(收藏):收藏其他开源项目 Fork(复制别人项目到自己的仓库中,在自己仓库中修改项目代码不会对源仓库有影响) Pull Request(发出合并请求):fork别人代码后,可以像源仓库发出请求合并申请,将自己的代码合并到源仓库中) Issue(事件):发现代码由…

编译+远程调试spark

一编译以spark2.4 hadoop2.8.4为例 1,spark 项目根pom文件修改 pom文件新增 <profile> <id>hadoop-2.8</id> <properties> <hadoop.version>2.8.4</hadoop.version> </properties> </profile> maven仓库地址增加 <repository> <id>bi…

【Spark】使用java语言开发spark程序

目录步骤一.创建maven工程,导入jar包二.开发代码步骤一.创建maven工程,导入jar包 <properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.0</spark.version> </properties> <dependencies> <dependency> <groupId>org.scal…

spark-submit提交spark任务的具体参数配置说明

spark-submit提交spark任务的具体参数配置说明 1.spark提交任务常见的两种模式 2.提交任务时的几个重要参数 3.参数说明 3.1 executor_cores*num_executors 3.2 executor_cores 3.3 executor_memory 3.4 driver-memory 1.spark提交任务常见的两种模式 local[k]:本地使用k个worker线程运行saprk程序.这种模式适合小批量数据在本地调试代码用.(若使用本地的文件,需要在前面加…

执行Spark运行在yarn上的命令报错 spark-shell --master yarn-client

1.执行Spark运行在yarn上的命令报错 spark-shell --master yarn-client,错误如下所示: // :: ERROR SparkContext: Error initializing SparkContext. org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application…

3 weekend110的job提交的逻辑及YARN框架的技术机制 + MR程序的几种提交运行模式

途径1: 途径2: 途径3: 成功! 由此,可以好好比较下,途径1和途径2 和途径3 的区别. 现在,来玩玩weekend110的joba提交的逻辑之源码跟踪原来如此,weekend110的job提交的逻辑源码,停在这了 hello world hello tom helllo jim jim is a bad boy hello jack hello baby baby is my nvshen hello world hello tom helllo jim jim is a bad bo…

spark执行在yarn上executor内存不足异常ERROR YarnScheduler: Lost executor 542 on host-bigdata3: Container marked as failed: container_e40_1550646084627_1007653_01_000546 on host: host-bigdata3. Exit status: 143.

当spark跑在yarn上时单个executor执行时,数据量过大时会导致executor的memory不足而使得rdd 最后lost,最终导致任务执行失败其中会抛出如图异常信息如图中异常所示对应解决方法可以加上对应的参数调优(这个配置可以在总的处理数据量在几百TB或者1~3PB级别的数据处理时解决executor-memory不足问题) --num-executors=512 --executor-cores=8 --executor-memory=32g --driver-memo…

java使用ssh远程操作linux 提交spark jar

maven依赖 <dependency> <groupId>ch.ethz.ganymed</groupId> <artifactId>ganymed-ssh2</artifactId> <version>262</version></dependency> import ch.ethz.ssh2.Connection; import ch.ethz.ssh2.S…