【原创】大叔问题定位分享（18）beeline连接spark thrift有时会卡住

spark 2.1.1

beeline连接spark thrift之后，执行use database有时会卡住，而use database 在server端对应的是 setCurrentDatabase，

经过排查发现当时spark thrift正在执行insert操作，

org.apache.spark.sql.hive.execution.InsertIntoHiveTable

  protected override def doExecute(): RDD[InternalRow] = {

    sqlContext.sparkContext.parallelize(sideEffectResult.asInstanceOf[Seq[InternalRow]], 1)

  }

...

  @transient private val externalCatalog = sqlContext.sharedState.externalCatalog

  protected[sql] lazy val sideEffectResult: Seq[InternalRow] = {

  ...

        externalCatalog.loadDynamicPartitions(

          externalCatalog.getPartitionOption(

          externalCatalog.loadPartition(

      externalCatalog.loadTable(

可见insert操作中可能会调用loadDynamicPartitions、getPartitionOption、loadPartition、loadTable等方法，

org.apache.spark.sql.hive.client.HiveClientImpl

  def loadTable(

      loadPath: String, // TODO URI

      tableName: String,

      replace: Boolean,

      holdDDLTime: Boolean): Unit = withHiveState {

...

  def loadPartition(

      loadPath: String,

      dbName: String,

      tableName: String,

      partSpec: java.util.LinkedHashMap[String, String],

      replace: Boolean,

      holdDDLTime: Boolean,

      inheritTableSpecs: Boolean): Unit = withHiveState {

...

  override def setCurrentDatabase(databaseName: String): Unit = withHiveState {

而HiveClientImpl中对应的方法都会执行withHiveState，而withHiveState有synchronized，所以insert操作中的部分代码（比如loadPartition）和use database操作会被同步执行，当insert执行很慢时就会卡住所有的其他操作；

spark thrift中实现原理详见 https://www.cnblogs.com/barneywill/p/10137672.html

【原创】大叔问题定位分享（18）beeline连接spark thrift有时会卡住的更多相关文章

【原创】大叔问题定位分享（11）Spark中对大表子查询加limit为什么会报Broadcast超时错误
当两个表需要join时,如果一个是大表,一个是小表,正常的map-reduce流程需要shuffle,这会导致大表数据在节点间网络传输,常见的优化方式是将小表读到内存中并广播到大表处理,避免shuff ...
【原创】大叔问题定位分享（2）spark任务一定几率报错java.lang.NoSuchFieldError: HIVE_MOVE_FILES_THREAD_COUNT
最近用yarn cluster方式提交spark任务时,有时会报错,报错几率是40%,报错如下: 18/03/15 21:50:36 116 ERROR ApplicationMaster91: Us ...
【原创】大叔问题定位分享（27）spark中rdd.cache
spark 2.1.1 spark应用中有一些task非常慢,持续10个小时,有一个task日志如下: 2019-01-24 21:38:56,024 [dispatcher-event-loop-2 ...
【原创】大叔问题定位分享（21）spark执行insert overwrite非常慢，比hive还要慢
最近把一些sql执行从hive改到spark,发现执行更慢,sql主要是一些insert overwrite操作,从执行计划看到,用到InsertIntoHiveTable spark-sql> ...
【原创】大叔问题定位分享（19）spark task在executors上分布不均
最近提交一个spark应用之后发现执行非常慢,点开spark web ui之后发现卡在一个job的一个stage上,这个stage有100000个task,但是绝大部分task都分配到两个execut ...
【原创】大叔问题定位分享（17）spark查orc格式数据偶尔报错NullPointerException
spark查orc格式的数据有时会报这个错 Caused by: java.lang.NullPointerException at org.apache.hadoop.hive.ql.io.orc. ...
【原创】大叔问题定位分享（16）spark写数据到hive外部表报错ClassCastException: org.apache.hadoop.hive.hbase.HiveHBaseTableOutputFormat cannot be cast to org.apache.hadoop.hive.ql.io.HiveOutputFormat
spark 2.1.1 spark在写数据到hive外部表(底层数据在hbase中)时会报错 Caused by: java.lang.ClassCastException: org.apache.h ...
【原创】大叔问题定位分享（15）spark写parquet数据报错ParquetEncodingException: empty fields are illegal, the field should be ommited completely instead
spark 2.1.1 spark里执行sql报错 insert overwrite table test_parquet_table select * from dummy 报错如下: org.ap ...
【原创】大叔问题定位分享（12）Spark保存文本类型文件（text、csv、json等）到hdfs时为什么是压缩格式的
问题重现 rdd.repartition(1).write.csv(outPath) 写文件之后发现文件是压缩过的 write时首先会获取hadoopConf,然后从中获取是否压缩以及压缩格式 org ...

随机推荐

在物理内存中观察CLR托管内存及GC行为
虽然看了一些书,还网络上的一些博文,不过对CLR托管内存细节依然比较模糊.而且因为工作原因总会有很多质疑,想要亲眼看到内存里二进制数据的变化. 所以借助winhex直接查看内存以证实书上的描述或更进一 ...
Codeforces Round #498 (Div. 3)--E. Military Problem
题意问,这个点的然后求子树的第i个节点. 这道题是个非常明显的DFS序: 我们只需要记录DFS的入DFS的时间,以及出DFS的时间,也就是DFS序, 然后判断第i个子树是否在这个节点的时间段之间. 最 ...
nginx 编译参数详解（运维必看--转）
nginx参数: –prefix= 指向安装目录 –sbin-path 指向(执行)程序文件(nginx) –conf-path= 指向配置文件(nginx.conf) –error-log-path ...
【idea设置】去掉IntelliJ IDEA 中 mybatis 对应的 xml 文件警告
win10安装ab测试工具
1.先下载 https://www.apachehaus.com/cgi-bin/download.plx 2.存到非中文无空格的目录 3.解压,并打开配置文件:Apache24\conf\httpd ...
洛谷 p1090 合并果子
https://www.luogu.org/problemnew/show/P1090 优先队列的经典题目体现了stl的优越性 #include<bits/stdc++.h> using ...
函数遍历DOM树
//获取页面中的根节点--根标签 var root=document.documentElement;//html //函数遍历DOM树 //根据根节点,调用fn的函数,显示的是根节点的名 ...
ListView与RecyclerView对比浅析——缓存机制
https://www.jianshu.com/p/193fb966e954 一,背景 RecyclerView是谷歌官方出的一个用于大量数据展示的新控件,可以用来代替传统的ListView,更加强大 ...
Android学习第十天
计算机表示图形的几种方式 a) Bmp:以高质量保存,用于计算机 b) Jpg:以良好的质量保存,用于计算机或网络 c) Png:以高质量保存 d) ...
Python【第四篇】函数、内置函数、递归、装饰器、生成器和迭代器
一.函数函数是指将一组语句的集合通过一个名字(函数名)封装起来,要想执行这个函数,只需调用其函数名即可特性: 减少重复代码使程序变的可扩展使程序变得易维护 1.定义 def 函数名(参数): ...

【原创】大叔问题定位分享（18）beeline连接spark thrift有时会卡住

【原创】大叔问题定位分享（18）beeline连接spark thrift有时会卡住的更多相关文章

随机推荐

热门专题