spark on k8s executor 动态分配

spark动态资源（executor）分配

spark动态资源调整其实也就是说的executor数目支持动态增减,动态增减是根据spark应用的实际负载情况来决定. 开启动态资源调整需要(on yarn情况下) 1.将spark.dynamicAllocation.enabled设置为true.意思就是启动动态资源功能 2.将spark.shuffle.service.enabled设置为true. 在每个nodeManager上设置外部shuffle服务 2.1 将spark-<version>-yarn-shuffle.jar拷贝到

Apache Spark on K8s的安全性和性能优化

前言 Apache Spark是目前最为流行的大数据计算框架,与Hadoop相比,它是替换MapReduce组件的不二选择,越来越多的企业正在从传统的MapReduce作业调度迁移到Spark上来,Spark的生态圈支持者越来越多,当然它出众的内部API设计,让它也非常容易和现有既成事实的Hadoop组件(YARN/HDFS)集成. 容器技术的兴起,各种分布式的容器编排技术也应运而生,其中的佼佼者包括Apache Mesos和Google发起的Kubernetes,虽然Mesos系出名门(UC

spark任务在executor端的运行过程分析

CoarseGrainedExecutorBackend 上一篇,我们主要分析了一次作业的提交过程,严格说是在driver端的过程,作业提交之后经过DAGScheduler根据shuffle依赖关系划分成多个stage,依次提交每个stage,将每个stage创建于分区数相同数量的Task,并包装成一个任务集,交给TaskSchedulerImpl进行分配.TaskSchedulerImpl则会根据SchedulerBackEnd提供的计算资源(executor),并考虑任务本地性,黑名单,调度

spark 笔记 12: Executor，task最后的归宿

spark的Executor是执行task的容器.和java的executor概念类似. ===================start executor runs task============================ ->CoarseGrainedExecutorBackend::receiveWithLogging --接收CoarseGrainedSchedulerBackend发来的消息 ->case LaunchTask(data) => 处理启动task的消息

Spark闭包 | driver & executor程序代码执行

Spark中的闭包闭包的作用可以理解为:函数可以访问函数外部定义的变量,但是函数内部对该变量进行的修改,在函数外是不可见的,即对函数外源变量不会产生影响. 其实,在学习Spark时,一个比较难理解的点就是,在集群模式下,定义的变量和方法作用域的范围和生命周期.这在你操作RDD时,比如调用一些函数map.foreach时,访问其外部变量进行操作时,很容易产生疑惑.为什么我本地程序运行良好且结果正确,放到集群上却得不到想要的结果呢? 首先通过下边对RDD中的元素进行求和的示例,来看相同的代码本地模

关于spark ui中executor显示的内存量与设置的内存量不符的问题

executor显示的内存量是实际执行程序使用的内存量,也就是排除bspark.storage.memoryFraction设置的比例外,然后使用的内存量. 默认是0.6,所以executory和driver默认只会使用40%的内存量

spark yarn任务的executor 无故 timeout之原因分析

问题: 用 spark-submit --master yarn --deploy-mode cluster --driver-memory 2G --num-executors 6 --executor-memory 2G ~~~ 提交任务时,最后一个executor 执行时间超过了 160s 导致 timeout而退出,造成任务重新执行造成用时过长.具体请看下面介绍: // :: WARN spark.HeartbeatReceiver: Removing executor with n

Spark（五十）：使用JvisualVM监控Spark Executor JVM

引导 Windows环境下JvisulaVM一般存在于安装了JDK的目录${JAVA_HOME}/bin/JvisualVM.exe,它支持(本地和远程)jstatd和JMX两种方式连接远程JVM. jstatd (Java Virtual Machine jstat Daemon)——监听远程服务器的CPU,内存,线程等信息 JMX(Java Management Extensions,即Java管理扩展)是一个为应用程序.设备.系统等植入管理功能的框架.JMX可以跨越一系列异构操作系统平台.

spark异常篇-Removing executor 5 with no recent heartbeats: 120504 ms exceeds timeout 120000 ms 可能的解决方案

问题描述与分析题目中的问题大致可以描述为: 由于某个 Executor 没有按时向 Driver 发送心跳,而被 Driver 判断该 Executor 已挂掉,此时 Driver 要把该 Executor 上执行的任务发送给另外一个 Executor 重新执行: 默认等待时长为 spark.network.timeout=120s 完整报错大概如下 17/01/13 09:13:08 WARN spark.HeartbeatReceiver: Removing executor 5 wit

spark提交命令 spark-submit 的参数 executor-memory、executor-cores、num-executors、spark.default.parallelism分析

转载:https://blog.csdn.net/zimiao552147572/article/details/96482120 nohup spark-submit --master yarn --deploy-mode cluster --jars /xx/xx/xx/xx.jar --class com.spark_kudu_parquet.spark_kudu --name spark_kudu --driver-memory 2g --driver-cores 2 --executo

「Spark从精通到重新入门(二)」Spark中不可不知的动态资源分配

前言资源是影响 Spark 应用执行效率的一个重要因素.Spark 应用中真正执行 task 的组件是 Executor,可以通过spark.executor.instances 指定 Spark 应用的 Executor 的数量.在运行过程中,无论 Executor上是否有 task 在执行,都会被一直占有直到此 Spark 应用结束. 上篇我们从动态优化的角度讲述了 Spark 3.0 版本中的自适应查询特性,它主要是在一条 SQL 执行过程中不断优化执行逻辑,选择更好的执行策略,从而达到

Spark 官方文档（4）——Configuration配置

Spark可以通过三种方式配置系统: 通过SparkConf对象, 或者Java系统属性配置Spark的应用参数通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量通过log4j.properties配置日志属性 Spark属性 Spark属性可以为每个应用分别进行配置,这些属性可以直接通过SparkConf设定,也可以通过set方法设定相关属性. 下面展示了在本地机使用两个线程并发执行的配置代码: val conf = new SparkConf() .setMas

spark能否取代Hadoop?

大数据的浪潮风靡全球的时候,Spark火了.在国外 Yahoo!.Twitter.Intel.Amazon.Cloudera 等公司率先应用并推广 Spark 技术,在国内阿里巴巴.百度.淘宝.腾讯.网易.星环等公司敢为人先,并乐于分享.在随后的发展中,IBM.Hortonworks.微策略等公司纷纷将 Spark 融进现有解决方案,并加入 Spark 阵营.Spark 在IT业界的应用可谓星火燎原之势. 创新都是站在巨人的肩膀上产生的,在大数据领域Spark也不例外.在 Spark 出现前,要

Apache Spark探秘：三种分布式部署方式比较

转自:链接地址: http://dongxicheng.org/framework-on-yarn/apache-spark-comparing-three-deploying-ways/ 目前Apache Spark支持三种分布式部署方式,分别是standalone.spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让

容器平台选型的十大模式：Docker、DC/OS、K8S 谁与当先？

作者:刘超来自:网易云基础服务无论是在社区,还是在同客户交流的过程中,总会被问到到底什么时候该用 Docker?什么时候用虚拟机?如果使用容器,应该使用哪个容器平台? 显而易见,我不会直接给大家一个答案,而是希望从技术角度进行分析具体的场景.例如客户是大公司还是小公司,将部署小集群还是大集群,倾向于私有云还是公有云,已经采购了 IaaS 还是没有 IaaS,IT 运维能力强还是弱,是否需要物理机.虚拟机.容器的混合部署,是一般的并发系统还是高并发,这里面所应该做的技术选型都不一样.举个

基于CDH 5.9.1 搭建 Hive on Spark 及相关配置和调优

Hive默认使用的计算框架是MapReduce,在我们使用Hive的时候通过写SQL语句,Hive会自动将SQL语句转化成MapReduce作业去执行,但是MapReduce的执行速度远差与Spark.通过搭建一个Hive On Spark可以修改Hive底层的计算引擎,将MapReduce替换成Spark,从而大幅度提升计算速度.接下来就如何搭建Hive On Spark展开描述. 注:本人使用的是CDH5.9.1,使用的Spark版本是1.6.0,使用的集群配置为4个节点,每台内存32+G,

容器平台选型的十大模式：Docker、DC/OS、K8S 谁与当先？【转】

网易企业服务2017-10-13 无论是在社区,还是在同客户交流的过程中,总会被问到到底什么时候该用 Docker?什么时候用虚拟机?如果使用容器,应该使用哪个容器平台? 显而易见,我不会直接给大家一个答案,而是希望从技术角度进行分析具体的场景.例如客户是大公司还是小公司,将部署小集群还是大集群,倾向于私有云还是公有云,已经采购了 IaaS 还是没有 IaaS,IT 运维能力强还是弱,是否需要物理机.虚拟机.容器的混合部署,是一般的并发系统还是高并发,这里面所应该做的技术选型都不一样.举个例子,

Spark 核心篇-SparkContext

本章内容: 1.功能描述本篇文章就要根据源码分析SparkContext所做的一些事情,用过Spark的开发者都知道SparkContext是编写Spark程序用到的第一个类,足以说明SparkContext的重要性:这里先摘抄SparkContext源码注释来简单介绍介绍SparkContext,注释的第一句话就是说SparkContext为Spark的主要入口点,简明扼要,如把Spark集群当作服务端那Spark Driver就是客户端,SparkContext则是客户端的核心:如注释所说

容器平台选型的十大模式：Docker、DC/OS、K8S谁与当先？

首先我们来谈什么情况下应该使用Docker的问题如图,左面是经常挂在嘴边的所谓容器的优势,但是虚拟机都能一一怼回去. 如果部署的是一个传统的应用,这个应用启动速度慢,进程数量少,基本不更新,那么虚拟机完全能够满足需求. 应用启动慢:应用启动15分钟,容器本身秒级,虚拟机很多平台能优化到十几秒,两者几乎看不出差别内存占用大:动不动32G,64G内存,一台机器跑不了几个基本不更新:半年更新一次,虚拟机镜像照样能够升级和回滚应用有状态:停机会丢数据,如果不知道丢了啥,就算秒级启动有啥用,照

《Spark 官方文档》在Mesos上运行Spark

本文转自:http://ifeve.com/spark-mesos-spark/ 在Mesos上运行Spark Spark可以在由Apache Mesos 管理的硬件集群中运行. 在Mesos集群中使用Spark的主要优势有: 可以在Spark以及其他框架(frameworks)之间动态划分资源. 可以同时部署多个Spark实例,且各个实例间的资源分配可以调整. 工作原理在独立部署的Spark集群中,下图里的Cluster Manager代表Spark master.然而,在Mesos集群中,

[转]Spark能否取代Hadoop？

大数据的浪潮风靡全球的时候,Spark火了.在国外 Yahoo!.Twitter.Intel.Amazon.Cloudera 等公司率先应用并推广 Spark 技术,在国内阿里巴巴.百度.淘宝.腾讯.网易.星环等公司敢为人先,并乐于分享.在随后的发展中,IBM.Hortonworks.微策略等公司纷纷将 Spark 融进现有解决方案,并加入 Spark 阵营.Spark 在IT业界的应用可谓星火燎原之势. 创新都是站在巨人的肩膀上产生的,在大数据领域Spark也不例外.在 Spark 出现前,

spark on k8s executor 动态分配

热门专题