1）hive-site.xml

hive-site.xml放到$SPARK_HOME/conf下

2）enableHiveSupport

SparkSession.builder.enableHiveSupport().getOrCreate()

3) 测试代码

    val sparkConf = new SparkConf().setAppName(getName)

    val sc = new SparkContext(sparkConf)

    val spark = SparkSession.builder.config(sparkConf).enableHiveSupport().getOrCreate()

    spark.sql("show databases").rdd.foreach(println)

使用$SPARK_HOME/bin/spark-submit提交任务后发现并不能读取到hive的数据库，相关日志如下

19/05/31 13:11:31 WARN SparkContext: Using an existing SparkContext; some configuration may not take effect.

19/05/31 13:11:31 INFO SharedState: loading hive config file: file:/export/spark-2.4.3-bin-hadoop2.6/conf/hive-site.xml

19/05/31 13:11:31 INFO SharedState: spark.sql.warehouse.dir is not set, but hive.metastore.warehouse.dir is set. Setting spark.sql.warehouse.dir to the value of hive.metastore.warehouse.dir ('/user/hive/warehouse').

19/05/31 13:11:31 INFO SharedState: Warehouse path is '/user/hive/warehouse'.

19/05/31 13:11:31 INFO StateStoreCoordinatorRef: Registered StateStoreCoordinator endpoin

说明已经读到hive-site.xml；

进一步测试，使用$SPARK_HOME/bin/spark-sql或者$SPARK_HOME/bin/spark-shell发现都可以读到hive数据库，很神奇有没有，

$SPARK_HOME/bin/spark-shell启动的类为org.apache.spark.repl.Main

"${SPARK_HOME}"/bin/spark-submit --class org.apache.spark.repl.Main --name "Spark shell" "$@"

跟进org.apache.spark.repl.Main代码

...

      val builder = SparkSession.builder.config(conf)

      if (conf.get(CATALOG_IMPLEMENTATION.key, "hive").toLowerCase(Locale.ROOT) == "hive") {

        if (SparkSession.hiveClassesArePresent) {

          // In the case that the property is not set at all, builder's config

          // does not have this value set to 'hive' yet. The original default

          // behavior is that when there are hive classes, we use hive catalog.

          sparkSession = builder.enableHiveSupport().getOrCreate()

          logInfo("Created Spark session with Hive support")

        } else {

          // Need to change it back to 'in-memory' if no hive classes are found

          // in the case that the property is set to hive in spark-defaults.conf

          builder.config(CATALOG_IMPLEMENTATION.key, "in-memory")

          sparkSession = builder.getOrCreate()

          logInfo("Created Spark session")

        }

      } else {

        // In the case that the property is set but not to 'hive', the internal

        // default is 'in-memory'. So the sparkSession will use in-memory catalog.

        sparkSession = builder.getOrCreate()

        logInfo("Created Spark session")

      }

      sparkContext = sparkSession.sparkContext

      sparkSession

...

发现和测试代码有些差异，关键是在倒数第二行，这里是先创建SparkSession，再从SparkSession中获取SparkContext，另外注意到之前有个WARN级别的日志

19/05/31 13:11:31 WARN SparkContext: Using an existing SparkContext; some configuration may not take effect.

修改测试代码

    val sparkConf = new SparkConf().setAppName(getName)

    //val sc = new SparkContext(sparkConf)

    val spark = SparkSession.builder.config(sparkConf).enableHiveSupport().getOrCreate()

    val sc = spark.sparkContext

    spark.sql("show databases").rdd.foreach(println)

这次果然ok了，详细原因有空再看，未完待续；

【原创】大叔经验分享（65）spark读取不到hive表的更多相关文章

【原创】经验分享：一个小小emoji尽然牵扯出来这么多东西？
前言之前也分享过很多工作中踩坑的经验: 一个线上问题的思考:Eureka注册中心集群如何实现客户端请求负载及故障转移? [原创]经验分享:一个Content-Length引发的血案(almost.. ...
【原创】大叔经验分享（12）如何程序化kill提交到spark thrift上的sql
spark 2.1.1 hive正在执行中的sql可以很容易的中止,因为可以从console输出中拿到当前在yarn上的application id,然后就可以kill任务, WARNING: Hiv ...
【原创】大叔经验分享（7）创建hive表时格式如何选择
常用格式 textfile 需要定义分隔符,占用空间大,读写效率最低,非常容易发生冲突(分隔符)的一种格式,基本上只有需要导入数据的时候才会使用,比如导入csv文件: ROW FORMAT DELIM ...
【原创】大叔经验分享（18）hive2.0以后通过beeline执行sql没有进度信息
一问题在hive1.2中使用hive或者beeline执行sql都有进度信息,但是升级到hive2.0以后,只有hive执行sql还有进度信息,beeline执行sql完全silence,在等待结 ...
spark相关介绍-提取hive表（一）
本文环境说明 centos服务器 jupyter的scala核spylon-kernel spark-2.4.0 scala-2.11.12 hadoop-2.6.0 本文主要内容 spark读取hi ...
sparkStreaming读取kafka写入hive表
sparkStreaming: package hive import java.io.File import org.apache.kafka.clients.consumer.ConsumerRe ...
【原创】大叔经验分享（60）hive和spark读取kudu表
从impala中创建kudu表之后,如果想从hive或spark sql直接读取,会报错: Caused by: java.lang.ClassNotFoundException: com.cloud ...
【原创】大叔经验分享（23）spark sql插入表时的文件个数研究
spark sql执行insert overwrite table时,写到新表或者新分区的文件个数,有可能是200个,也有可能是任意个,为什么会有这种差别? 首先看一下spark sql执行inser ...
【原创】大叔经验分享（20）spark job之间会停顿几分钟
今天遇到一个问题,spark应用中在一个循环里执行sql,每个sql都会向一张表写入数据,比如 insert overwrite table test_table partition(dt) sele ...

随机推荐

性能监控系统 | 从0到1 搭建Web性能监控系统
工具介绍 1. Statsd 是一个使用Node开发网络守护进程,它的特点是通过UDP(性能好,及时挂了也不影响主服务)或者TCP来监听各种数据信息,然后发送聚合数据到后端服务进行处理.常见支持的「G ...
react-native-swiper设定高度的方法（设置rn轮播图所占高度）
效果图: 直接上解决方案: 1.在Swiper标签外套一层View <View style={styles.container}> <Swiper style={styles.wra ...
easyUI之Messager（消息窗口）
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <html> <hea ...
使用Jsp +Js + Jquery + EasyUI + Servlet + Lucene，完成分页
步一:创建ArticleDao.java类 public class ArticleDao { public Integer getAllObjectNum(String keywords) thro ...
python之scrapy爬取jingdong招聘信息到mysql数据库
1.创建工程 scrapy startproject jd 2.创建项目 scrapy genspider jingdong 3.安装pymysql pip install pymysql 4.set ...
spark简单快速学习及打开UI界面---1
1.远程集群测试 import org.apache.spark.{SparkContext, SparkConf} import scala.math.random /** * 利用spark进行圆 ...
dede不同栏目调用不同banner图的方法
用顶级栏目ID 方法: <img src="{dede:global.cfg_templets_skin/}/images/{dede:field.typeid function=&q ...
Array.ConvertAll<TInput, TOutput> 数组相互转化方法
有个需求,把char数组转换为int数组,然后噼里啪啦就弄了这样一堆代码: public static int[] CharArrToIntArr(char[] charArr) { int[] in ...
redis报错解决
1.Connecting to node 127.0.0.17000 [ERR] Sorry, can't connect to node 192.168.1.917000 redis集群:Conne ...
在spring的业务层获取request,response
1.直接通过controller层获取到传输到业务层2.SpringMVC提供的RequestContextHolder可以直接获取代码: RequestAttributes requestAttri ...

【原创】大叔经验分享（65）spark读取不到hive表

1）hive-site.xml

2）enableHiveSupport

3) 测试代码

【原创】大叔经验分享（65）spark读取不到hive表的更多相关文章

随机推荐

热门专题