[DB] Spark SQL

概述

基于Spark，兼容Hive
集成在Spark中，不需单独安装
提供统一的数据访问方式
结构化的数据类型：JDBC、JSON、Hive、Parquet（Saprk SQL 默认数据源）
支持标准的数据连接：JDBC、ODBC
Hive把sql解析成了mapreduce程序，sparksql把sql语句解析成了Spark任务
spark core 操作RDD，spark sql 操作DataFrame
RDD内部元素是java对象，DataFrame内部是Row对象，相比于RDD多了元信息
DataFrame是一种以RDD为基础的分布式数据集，类似MySQL的表
DataSet是分布式的数据集合，提供了强类型支持，在RDD每行增加类型约束，解决了DataFrame缺乏编译时类型安全
DataSet包含了DataFrame功能，Spark2.0中两者统一，DataFrame表示为DataSet[Row]
表（DataFrame）= 结构（Schema） + 数据（RDD）
Spark on Hive：通过Sparksql加载Hive配置文件，获取元信息，底层运行Spark RDD（Spark主导，拿到Hive元信息），例如通过Spark程序将Hive数据写入ES
Hive on Spark：把Hive查询从mr操作替换为Spark RDD操作，需重新编译Spark，操作较复杂（Hive主导，替换计算引擎）

RDD

DataFrame

或 DataSet

优缺点

RDD

优点
- 编译时类型安全
- 面向对象开发风格
缺点
- 构建java对象会占用heap堆空间，导致频繁GC
- 数据序列化，反序列化开销大

DataFrame

优点
- 引入off-heap，对象构建不占用堆内存，避免频繁GC，运行效率高
- 引入schema，传输数据量减小，序列化反序列化开销减小
缺点
- 编译时不安全
- 不具有面向对象开发风格

DataSet

优点
- 结合RDD和DataFrame
- 支持自定义对象存储
- 支持结构化数据sql查询
- 采用堆外存储，gc友好
- 类型转换安全，代码友好

创建DataFrame

使用 case class 样本类
- 定义表的 schema
- 导入HDFS的dept.csv作为数据
使用 Spark Session
- 包括 Spark Context、SQL Context、Streaming Context
- 2.0后引入的统一访问接口，可访问所有spark组件
- 使用StructType创建schema
读取带格式文件
- Json

操作DataFrame

DSL语句
SQL语句

DataSet

视图

虚表，不存储数据
普通视图：本地视图，只在当前session中有效
全局视图：在不同session中都有效，把全局视图创建命名空间，global_temp

数据源

load() 和 save()
Parquet文件
- 列式存储文件，Spark SQL默认数据源
- 把其它文件转为Parquet文件
- 支持Schema的合并：项目开始的时候，表（schema）很简单，逐步向表中增加新的列
Json文件
- val testResult = spark.read.json("/usr/local/tmp_files/emp.json")
JDBC
Hive

自定义函数

UDF
UDAF

性能优化

缓存方式：在内存中缓存数据
性能优化参数

IDE中开发

关闭log4j

参考

官网

http://spark.apache.org/sql/

Spark 集成 Hive

https://www.cnblogs.com/juncaoit/p/6545092.html

https://blog.csdn.net/qq_16633405/article/details/78278786

https://blog.csdn.net/weixin_37677769/article/details/83580893

http://bcxw.net/article/550.html

https://blog.csdn.net/qq_38704184/article/details/86482948

https://blog.csdn.net/xiaohu21/article/details/108960672

[DB] Spark SQL的更多相关文章

Spark SQL Thrift Server 配置 Kerberos身份认证和权限管理
转载请注明出处:http://www.cnblogs.com/xiaodf/ 之前的博客介绍了通过Kerberos + Sentry的方式实现了hive server2的身份认证和权限管理功能,本文主 ...
Spark SQL概念学习系列之Spark SQL 架构分析（四）
Spark SQL 与传统 DBMS 的查询优化器 + 执行器的架构较为类似,只不过其执行器是在分布式环境中实现,并采用的 Spark 作为执行引擎. Spark SQL 的查询优化是Catalyst ...
Spark SQL 初步
已经Spark Submit 2013哪里有介绍Spark SQL.就在很多人都介绍Catalyst查询优化框架.经过一年的发展后,.今年Spark Submit 2014在.Databricks放弃 ...
大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器
第1章 Spark SQL 概述1.1 什么是 Spark SQL1.2 RDD vs DataFrames vs DataSet1.2.1 RDD1.2.2 DataFrame1.2.3 DataS ...
spark SQL读取ORC文件从Driver启动到开始执行Task(或stage)间隔时间太长（计算Partition时间太长）且产出orc单个文件中stripe个数太多问题解决方案
1.背景: 控制上游文件个数每天7000个,每个文件大小小于256M,50亿条+,orc格式.查看每个文件的stripe个数,500个左右,查询命令:hdfs fsck viewfs://hadoop ...
通过spark sql 将 hdfs上文件导入到mongodb
功能:通过spark sql 将hdfs 中文件导入到mongdo 所需jar包有:mongo-spark-connector_2.11-2.1.2.jar.mongo-java-driver-3.8 ...
Spark SQL笔记
HDFS HDFS架构 1.Master(NameNode/NN) 对应 N个Slaves(DataNode/NN)2.一个文件会被拆分成多个块(Block)默认:128M例: 130M ==> ...
Spark SQL快速离线数据分析
拷贝hive-site.xml到spark的conf目录下面打开spark的conf目录下的hive-site.xml文件加上这段配置(我这里三个节点的spark都这样配置) 把hive中的mys ...
Caused by: java.sql.SQLException: Failed to start database 'metastore_db' with class loader org.apache.spark.sql.hive.client.IsolatedClientLoader$$anon$1@d7c365, see the next exception for details.
解决方法:https://stackoverflow.com/questions/37442910/spark-shell-startup-errors 异常: 18/01/29 19:04:27 W ...

随机推荐

通过《第一行代码》学习 Android 开发
第一行代码 Android --第 2 版-- 郭霖著第 1 章:开始启程--你的第一行 Android 代码 •1.2 手把手带你搭建开发环境 Android Studio 的安装及配置 A ...
shell算数和逻辑运算
算术运算 Shell允许在某些情况下对算术表达式进行求值,比如:let和declare 内置命令,(( ))复合命令和算术扩展.求值以固定宽度的整数进行,不检查溢出,尽管除以0 被困并标记为错误.运 ...
使用 docker 进行 ElasticSearch + Kibana 集群搭建
在Docker容器中运行Elasticsearch Kibana和Cerebro 机器信息 10.160.13.139 10.160.9.162 10.160.11.171 1. 安装docker和d ...
Python基础（十四）：while循环与break、continue关键字
前面我们已经学习了for循环,今天再带着大家讲述一下while循环.那么for循环和while循环,到底有什么区别呢? Python中for循环和while循环本质上是没有区别的,但是在实际应用上,针 ...
软工2021个人阅读作业#2——构建之法和CI/CD的运用
项目内容这个作业属于哪个课程 2021学年春季软件工程(罗杰任健) 这个作业的要求在哪里 2021年软工-热身阅读作业#2 我在这个课程的目标是了解和掌握现代软件开发和项目管理技术,锻炼在大规 ...
PAT A1025 考生排名问题
题目要求:有n个考场,每个考场有若干个考生,现给出各个考场中考生的准考证号与分数,按照分数从高到低排序,并按顺序输出所有考生的准考证号,排名,考场号以及所在的考场排名 #include<cstd ...
「一站式」兼容所有云厂商文件存储Spring Boot 实现
背景在互联网发展的今天,近乎所有的云厂商都提供对象存储服务.一种海量.安全.低成本.高可靠的云存储服务,适合存放任意类型的文件.容量和处理能力弹性扩展,多种存储类型供选择,全面优化存储成本. 当我们 ...
irreader网页订阅
flag:立刻阅读,订阅你的全世界订阅网页.RSS和Podcast,具备急速的阅读体验,高品质.免费.无广告.多平台的阅读器.泛用型Podcast播放器. 下载位置:http://irreader. ...
6. linux 专业词汇
什么是交换分区? 交换分区是一个特殊的分区,他的作用相当于windows下的虚拟内存,这个分区的大小一般设置为物理内存的两倍. 什么是Grub? Grub是一个系统引导工具,通过它可以加载内核,从而引 ...
Azure data studio 跨平台数据库管理工具试用
最近折腾 azure sql database 的时候发现了微软的一款新的数据库管理工具: azure data studio.从名字上看 azure data studio 好像是专门为 azure ...

[DB] Spark SQL

[DB] Spark SQL的更多相关文章

随机推荐

热门专题