SparkSQL架构

Spark SQL运行架构

Spark SQL由Core、Catalyst、Hive和Hive-Thriftserver组成

　　core：负责处理数据的输入/输出，从不同的数据源获取数据(如RDD、Parquet文件和json文件等)，然后将查询结果输出成DataFrame

　　Catalyst：负责处理查询语句的整个过程，包括解析、绑定、优化、物理计划等，是最重要的部分

　　Hive：负责对hive数据的处理

　　Hive-thriftserver：提供CLI和JDBC/ODBC接口

Spark SQL的架构：

　　(1)、将SQL语句通过词法和语法解析生成未绑定的逻辑计划(包含Unresolved Relation、Unresolved Function和Unresolved Attribute)，然后在后续步骤中使用不同的Rule应用到该逻辑计划上。

　　(2)、Analyzer使用Analysis Rules，配合数据元数据(如SessionCatalog或Hive Metastore)，完善未绑定的逻辑计划的属性而转换成已绑定的逻辑计划。

　　　　具体的流程是：先实例化一个Simple Analyzer，然后遍历预先定义好的Batch，通过父类的Rule Exector的执行方法运行Batch里面的Rules，每个Rule会对未绑定的逻辑计划进行处理，有些可以通过一次解析处理，有些需要多次迭代，迭代至FixedPoint次数迭代或达到前后两次的树结构没有变化时停止。

　　(3)、Optimizer使用Optimization Rules，将绑定的逻辑计划进行合并、列裁剪、过滤器下推等优化工作后生成优化的逻辑计划。

　　(4)、Planner使用Planning Strategies，对优化的逻辑计划进行转换(Transform)生成可以执行的逻辑计划。根据过去的性能统计数据，选择最佳的物理执行计划CostModel，最后可以执行的物理计划树，即得到SparkPlan。

　　(5)、在最终真正执行物理执行计划前，还要进行preparations规则处理，最后调用SparkPlan的execute执行计算RDD。

SparkSQL架构的更多相关文章

spark-sql执行流程分析
spark-sql 架构图1 图1是sparksql的执行架构,主要包括逻辑计划和物理计划几个阶段,下面对流程详细分析. sql执行流程总体流程 parser:基于antlr框架对 sql解析,生 ...
sparkSQL1.1入门
http://blog.csdn.net/book_mmicky/article/details/39288715 2014年9月11日,Spark1.1.0忽然之间发布.笔者立即下载.编译.部署了S ...
sparkSQL1.1入门之二：sparkSQL执行架构
在介绍sparkSQL之前.我们首先来看看,传统的关系型数据库是怎么执行的.当我们提交了一个非常easy的查询: SELECT a1,a2,a3 FROM tableA Where con ...
Spark入门实战系列--6.SparkSQL（上）--SparkSQL简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是 ...
Spark入门实战系列--6.SparkSQL（下）--Spark实战应用
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .运行环境说明 1.1 硬软件环境线程,主频2.2G,10G内存 l 虚拟软件:VMwa ...
Presto架构及原理
Presto 是 Facebook 推出的一个基于Java开发的大数据分布式 SQL 查询引擎,可对从数 G 到数 P 的大数据进行交互式的查询,查询的速度达到商业数据仓库的级别,据称该引擎的性能是 ...
Hive(一):架构及知识体系
Hive是一个基于Hadoop的数据仓库,最初由Facebook提供,使用HQL作为查询接口.HDFS作为存储底层.mapReduce作为执行层,设计目的是让SQL技能良好,但Java技能较弱的分析师 ...
sparksql工程小记
最近做一个oracle项目迁移工作,跟着spark架构师学着做,进行一些方法的总结. 1.首先,创建SparkSession对象(老版本为sparkContext) val session = Spa ...
Java采用JDBC的方式连接Hive（SparkSQL）
前两天,由于系统的架构设计的原因,想通过Java直接访问Hive数据库,对于我这个Java以及Hadoop平台的菜鸟来说,的确是困难重重,不过,还好是搞定了.感觉也不是很麻烦.这篇文章,作为一个感想记 ...

随机推荐

A + B Problem II（1002）
Problem Description I have a very simple problem for you. Given two integers A and B, your job is to ...
HTML5随记
1.浏览器加载HTML的过程是从上至下,因此引用的第三方js文件一定要放到自己定义的js文件的前面,否则引入的js文件将会在加载时失效. 2.html的全局属性包括:accesskey.content ...
A dreamstart的催促（快速幂） B TRDD got lost again
A dreamstart的催促链接:https://ac.nowcoder.com/acm/contest/322/A来源:牛客网时间限制:C/C++ 1秒,其他语言2秒空间限制:C/C++ ...
stylus快速上手
定义变量,比如一键切换主题色 1.创建xxx.styl文件,定义变量 $bgColor = #00bcg4 2.在其他页面的style区域里,先引入这个xxx.styl文件 <style> ...
浅析API和SDK
前言最近有小伙伴咨询胡哥关于API和SDK的概念以及区别,今天给大家来阐述下我的理解,手动微笑.gif. API 1. 定义 API(Application Programming Interfac ...
Robot Framework 源码阅读 day1 __main__.py
robot文件夹下的__main__.py函数是使用module运行时的入口函数: import sys # Allows running as a script. __name__ check n ...
使用GDB调试产生多进程的程序
如果一个进程fork了多个进程,这时使用GBD工具对程序进行调试会如何呢? 实际上,GDB 没有对多进程程序调试提供直接支持.例如,使用GDB调试某个进程,如果该进程fork了子进程,GDB会继续调试 ...
leetcode 003
3. Longest Substring Repeating Character Difficulty:Medium The link: https://leetcode.com/problems/l ...
碎片记录——JMeter之 http post json对象与参数化调用，以及beanshell 引用Java源码
参考文档 http://jmeter.apache.org/usermanual/component_reference.html#samplers https://blog.csdn.net/qq_ ...
ES6基本用法
es6是JS(JavaScript)的下一个版本. 新增了let命令,用来声明变量.变量在第一个花括号内有用,先声明后引用.不允许重复声明.存在暂时性死区. const声明一个只读的常量.一旦声明,常 ...

SparkSQL架构

Spark SQL运行架构

SparkSQL架构的更多相关文章

随机推荐

热门专题