【原创】大叔经验分享（20）spark job之间会停顿几分钟

今天遇到一个问题，spark应用中在一个循环里执行sql，每个sql都会向一张表写入数据，比如

insert overwrite table test_table partition(dt) select * from test_table_another;

除了执行sql没有其他逻辑，每个sql都会对应1个job，在spark web ui上看到job和job之间会停顿几分钟，并且非常有规律，任何两个job之间都会停顿，是不是很神奇？

答案揭晓：

spark在执行insert overwrite table partition的时候，分为两个部分，一个是执行select（读数据），一个是执行load partition（写数据），具体详见执行计划；

每个sql对应1个job，这个job执行的select部分（读数据），不包含load partition部分（写数据），因为spark为了兼容hive，直接使用hive的元数据库，所有ddl操作都是通过反射直接调用hive的代码（spark2.1依赖的是hive1.2），这个过程并不包含在spark job中，所以看起来job执行完之后停顿了几分钟才执行下个job，这里停顿的几分钟其实是在做load partition操作（写数据）；

这里还有另外一个问题，hive1.2在loadPartition删除文件时是串行操作，非常慢，这个问题在hive2时改为线程池解决，具体代码及问题解析详见：https://www.cnblogs.com/barneywill/p/10154922.html

【原创】大叔经验分享（20）spark job之间会停顿几分钟的更多相关文章

【原创】经验分享：一个小小emoji尽然牵扯出来这么多东西？
前言之前也分享过很多工作中踩坑的经验: 一个线上问题的思考:Eureka注册中心集群如何实现客户端请求负载及故障转移? [原创]经验分享:一个Content-Length引发的血案(almost.. ...
【原创】大叔经验分享（23）spark sql插入表时的文件个数研究
spark sql执行insert overwrite table时,写到新表或者新分区的文件个数,有可能是200个,也有可能是任意个,为什么会有这种差别? 首先看一下spark sql执行inser ...
【原创】大叔经验分享（19）spark on yarn提交任务之后执行进度总是10%
spark 2.1.1 系统中希望监控spark on yarn任务的执行进度,但是监控过程发现提交任务之后执行进度总是10%,直到执行成功或者失败,进度会突然变为100%,很神奇, 下面看spark ...
【原创】大叔经验分享（15）spark sql limit实现原理
之前讨论过hive中limit的实现,详见 https://www.cnblogs.com/barneywill/p/10109217.html下面看spark sql中limit的实现,首先看执行计 ...
【原创】大叔经验分享（14）spark on yarn提交任务到集群后spark-submit进程一直等待
spark on yarn通过--deploy-mode cluster提交任务之后,应用已经在yarn上执行了,但是spark-submit提交进程还在,直到应用执行结束,提交进程才会退出,有时这会 ...
【原创】大叔经验分享（13）spark运行报错WARN Utils: Service 'sparkDriver' could not bind on port 0. Attempting port 1.
本地运行spark报错 18/12/18 12:56:55 WARN Utils: Service 'sparkDriver' could not bind on port 0. Attempting ...
【原创】大叔经验分享（12）如何程序化kill提交到spark thrift上的sql
spark 2.1.1 hive正在执行中的sql可以很容易的中止,因为可以从console输出中拿到当前在yarn上的application id,然后就可以kill任务, WARNING: Hiv ...
【原创】大叔经验分享（5）oozie提交spark任务如何添加依赖
spark任务添加依赖的方式: 1 如果是local方式运行,可以通过--jars来添加依赖: 2 如果是yarn方式运行,可以通过spark.yarn.jars来添加依赖: 这两种方式在oozie上 ...
【原创】大叔经验分享（39）spark cache unpersist级联操作
问题:spark中如果有两个DataFrame(或者DataSet),DataFrameA依赖DataFrameB,并且两个DataFrame都进行了cache,将DataFrameB unpersi ...

随机推荐

家庭记账本小程序之改（java web基础版五）
实现修改消费账单 1.main_left.jsp中该部分,调用Servlet中的list方法 2.Servlet中的list方法,调用Dao层的list方法,跳转到list.jsp页面 3.Dao层的 ...
Python中的正则表达式教程
本文http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 正则表达式经常被用到,而自己总是记不全,转载一份完整的以备不时之需. 1. ...
magento2 - Invalid credentials for 'https://repo.magento.com/packages.json', aborting.
错误如下: 登陆:https://developer.magento.com/找到路径-创建公钥与私钥: Developer Portal -> My Access Keys -> Cre ...
Django自定义分页
分页自定义分页稳扎稳打版 def book(request): # 从URL取参数(访问的页码) page_num = request.GET.get("page") try: ...
jforum（1）--环境搭建
JForum 是采用Java开发的功能强大且稳定的论坛系统.它提供了抽象的接口.高效的论坛引擎以及易于使用的管理界面,同时具有完全的权限控制.多语言支持(包括中文).高性能.可自定义的用户接口.安全. ...
从零开始部署javaWeb项目到阿里云上面
[详情请看]http://www.cnblogs.com/softidea/p/5271746.html 补充几点特别需要注意的事情一:putty相当于阿里云的控制台, WinSCP 相当于是专门上 ...
vue常用手册
1.搭建vue的开发环境: 1.必须要安装node.js 2.安装vue的脚手架工具官方命令行工具 npm install --global vue-cli 3.新建项目 vue init webp ...
TensorFlow深度学习，一篇文章就够了
http://blog.jobbole.com/105602/ 作者: 陈迪豪,就职小米科技,深度学习工程师,TensorFlow代码提交者. TensorFlow深度学习框架 Google不仅是大数 ...
Dubbo2.6.5入门——简单的HelloWorld
建立父工程打开idea,新建一个空的maven工程,作为整个项目的父工程. <?xml version="1.0" encoding="UTF-8"?& ...
金融量化分析【day113】：聚宽自带策略
一.策略代码 # 导入函数库 from jqdata import * # 初始化函数,设定基准等等 def initialize(context): # 设定沪深300作为基准 set_benchm ...

【原创】大叔经验分享（20）spark job之间会停顿几分钟

【原创】大叔经验分享（20）spark job之间会停顿几分钟的更多相关文章

随机推荐

热门专题