SparkSQL & Spark on Hive & Hive on Spark

刚开始接触Spark被Hive在Spark中的作用搞得云里雾里，这里简要介绍下，备忘。

参考：https://blog.csdn.net/zuochang_liu/article/details/82292076

SparkSQL：是一个完全不依赖Hive的SQL引擎。

Spark On Hive

通过sparksql，加载hive的配置文件，获取到hive的元数据信息；spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据；接下来就可以通过spark sql来操作hive表中的数据。也就是说仅仅是将Hive作为一个数据仓库，并没有用到Hive的SQL执行引擎的能力。代码在内核代码spark-hive_2.11工程中。

Hive On Spark

是把hive查询从mapreduce 的mr (hadoop 计算引擎)操作替换为spark rdd 操作；将HQL翻译成分布式可以执行的Spark程序。Hive和SparkSQL都不负责计算。也就是一个为Spark计算框架定制的Hive。和Hive基本上没有关系，耦合之处为：HQL、元数据库、UDF、序列化、反序列化机制。它是一个单独的工程，和Spark内核代码独立，但是Spark依赖于Hive On Spark， Spark中的某些模块执行过程中会调用Hive on Spark. 例如Spark JDBCServer：

Hive原来的计算模型是MR，频繁操作磁盘（将中间结果写入到HDFS中）效率低。而Hive On Spark中使用了RDD（Dataframe）,然后运行在spark集群上面。元数据保存在mysql中，其中包含了hive表的描述信息，描述了那些数据库、表，以及表有多少列，每一列都是什么类型，还要描述表的数据保存在HDFS的什么位置。

Hive元数据库的功能

　　hive的元数据（metadata）建立了一种映射关系，执行HQL是，先到Mysql元数据库中查找描述信息，然后根据描述信息生成任务，然后将任务下发到spark集群中执行。hive on spark使用的仅仅是hive的标准和规范，不需要有hive数据库一样可以使用。要使用Hive的标准需要将hive的配置文件放在spark的conf目录下。没有安装Hive组件也没有影响。

要在Spark-Submit进程中使用开启spark对hive的支持：

val session = SparkSession.builder()

  .master("local")

  .appName("xx")

  .enableHiveSupport()

  .getOrCreate()

SparkSQL & Spark on Hive & Hive on Spark的更多相关文章

spark2.3.0 配置spark sql 操作hive
spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过spark sql与hive结合实现数据分析将成为一种最佳实践.配置步骤 ...
Spark记录-源码编译spark2.2.0（结合Hive on Spark/Hive on MR2/Spark on Yarn）
#spark2.2.0源码编译 #组件:mvn-3.3.9 jdk-1.8 #wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark- ...
Spark SQL与Hive on Spark的比较
简要介绍了SparkSQL与Hive on Spark的区别与联系一.关于Spark 简介在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题 ...
Hive on Spark和Spark sql on Hive，你能分的清楚么
摘要:结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序. 本文分享自华为云社区<Hive on Spark和Spark sql o ...
spark+hcatalog操作hive表及其数据
package iie.hadoop.hcatalog.spark; import iie.udps.common.hcatalog.SerHCatInputFormat; import iie.ud ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
Spark整合HBase,Hive
背景: 场景需求1:使用spark直接读取HBASE表场景需求2:使用spark直接读取HIVE表场景需求3:使用spark读取HBASE在Hive的外表摘要: 1.背景 2.提交脚本内容场 ...
[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子
[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子$ cat customers.txt 1 Ali us 2 Bsb ca 3 Carls mx $ hive h ...
[Spark][Hive]Hive的命令行客户端启动：
[Spark][Hive]Hive的命令行客户端启动: [training@localhost Desktop]$ chkconfig | grep hive hive-metastore 0:off ...

随机推荐

免费馅饼——移动dp
免费馅饼题目描述 SERKOI最新推出了一种叫做"免费馅饼"的游戏: 游戏在一个舞台上进行.舞台的宽度为 $W$ 格,天幕的高度为 $H$ 格,游戏者占一格. 开始时游戏 ...
使用Python编写的对拍程序
简介支持数据生成程序模式, 只要有RE或者WA的数据点, 就会停止支持数据文件模式, 使用通配符指定输入文件, 将会对拍所有文件结束后将会打印统计信息第一次在某目录执行,将会通过交互方式获取配 ...
洛谷CF997A：Convert to Ones
温馨提示: 本题适合先思考再看题解,相信各位神犇都能轻轻松松过掉它. 题目链接: https://www.luogu.com.cn/problem/CF997A 分析: 首先要读懂题,to ones, ...
古有七步成诗，今有六步完成DevOps上华为云DevCloud实践
引言: 在“DevOps能力之屋(Capabilities House of DevOps)”中,华为云DevCloud提出(工程方法+最佳实践+生态)×工具平台=DevOps能力.华为云DevClo ...
eShopOnContainers 知多少[11]：服务间通信之gRPC
引言最近翻看最新3.0 eShopOncontainers源码,发现其在架构选型中补充了 gRPC 进行服务间通信.那就索性也写一篇,作为系列的补充. gRPC 老规矩,先来理一下gRPC的基本概念 ...
精通java并发-synchronized关键字和锁
目前CSDN,博客园,简书同步发表中,更多精彩欢迎访问我的gitee pages synchronized关键字和锁示例代码 public class MyThreadTest2 { public ...
js获取url并截取相应的字段，js解决url获取中文字段乱码问题
相信url截取信息是一个很常用的小功能页面跳转传参的时候可以在A页面的url挂一些参数到B页面获取正常的页面传参都是以数字和英文为主正常情况下中文获取的时候是有乱码的所谓上有政策下有对策一个正常的ur ...
[apue] Linux / Windows 系统上只能建立不超过 PATH_MAX / MAX_PATH 长度的路径吗?
问题的提出在处理文件系统路径的时候,我们一般会先开辟一块内存区,用来接收路径.或者拼接好路径传递给系统调用.这是因为路径在各个系统上都有最大长度限制,在 Windows 上这个值是 MAX_PATH ...
git的几个常用基本操作
需求一:如何把stage中的修改还原到work dir中这个需求很常见,也很重要,比如我先将当前work dir中的修改添加到stage中,然后又对work dir中的文件进行了修改,但是又后悔了, ...
Java历史[史上最详细的阐述了Java发展的历史过程]
Java历史学习Java语言之前,我觉得大家应该是从头开始,对吧?不管你之前是学过还是没学过,都和学习某一个知识一样,从头开始去了解它,然后到这个深入的掌握,到最后你可能理解并且灵活的运用.所以它肯 ...

SparkSQL & Spark on Hive & Hive on Spark

SparkSQL & Spark on Hive & Hive on Spark的更多相关文章

随机推荐

热门专题