Spark修炼之道（进阶篇）——Spark入门到精通：第九节 Spark SQL执行流程解析

1.总体执行流程

使用下列代码对SparkSQL流程进行分析。让大家明确LogicalPlan的几种状态，理解SparkSQL总体执行流程

// sc is an existing SparkContext.

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

// this is used to implicitly convert an RDD to a DataFrame.

import sqlContext.implicits._

// Define the schema using a case class.

// Note: Case classes in Scala 2.10 can support only up to 22 fields. To work around this limit,

// you can use custom classes that implement the Product interface.

case class Person(name: String, age: Int)

// Create an RDD of Person objects and register it as a table.

val people = sc.textFile("/examples/src/main/resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF()

people.registerTempTable("people")

// SQL statements can be run by using the sql methods provided by sqlContext.

val teenagers = sqlContext.sql("SELECT name, age FROM people WHERE age >= 13 AND age <= 19")

（1）查看teenagers的Schema信息

scala> teenagers.printSchema

root

 |-- name: string (nullable = true)

 |-- age: integer (nullable = false)

（2）查看执行流程

scala> teenagers.queryExecution

res3: org.apache.spark.sql.SQLContext#QueryExecution =

== Parsed Logical Plan ==

'Project [unresolvedalias('name),unresolvedalias('age)]

 'Filter (('age >= 13) && ('age <= 19))

  'UnresolvedRelation [people], None

== Analyzed Logical Plan ==

name: string, age: int

Project [name#0,age#1]

 Filter ((age#1 >= 13) && (age#1 <= 19))

  Subquery people

   LogicalRDD [name#0,age#1], MapPartitionsRDD[4] at rddToDataFrameHolder at <console>:22

== Optimized Logical Plan ==

Filter ((age#1 >= 13) && (age#1 <= 19))

 LogicalRDD [name#0,age#1], MapPartitionsRDD[4] at rddToDataFrameHolder at <console>:22

== Physical Plan ==

Filter ((age#1 >= 13) && (age#1 <= 19))

 Scan PhysicalRDD[name#0,age#1]

Code Generation: true

QueryExecution中表示的是总体Spark SQL执行流程，从上面的输出结果能够看到，一个SQL语句要执行须要经过下列步骤：

== （1）Parsed Logical Plan ==

'Project [unresolvedalias('name),unresolvedalias('age)]

 'Filter (('age >= 13) && ('age <= 19))

  'UnresolvedRelation [people], None

== （2）Analyzed Logical Plan ==

name: string, age: int

Project [name#0,age#1]

 Filter ((age#1 >= 13) && (age#1 <= 19))

  Subquery people

   LogicalRDD [name#0,age#1], MapPartitionsRDD[4] at rddToDataFrameHolder at <console>:22

== （3）Optimized Logical Plan ==

Filter ((age#1 >= 13) && (age#1 <= 19))

 LogicalRDD [name#0,age#1], MapPartitionsRDD[4] at rddToDataFrameHolder at <console>:22

== （4）Physical Plan ==

Filter ((age#1 >= 13) && (age#1 <= 19))

 Scan PhysicalRDD[name#0,age#1]

//启动动态字节码生成技术（bytecode generation。CG），提升查询效率

Code Generation: true

2.全表查询执行流程

执行语句：

val all= sqlContext.sql("SELECT * FROM people")

执行流程：

scala> all.queryExecution

res9: org.apache.spark.sql.SQLContext#QueryExecution =

//注意*号被解析为unresolvedalias(*)

== Parsed Logical Plan ==

'Project [unresolvedalias(*)]

 'UnresolvedRelation [people], None

== Analyzed Logical Plan ==

//unresolvedalias(*)被analyzed为Schema中全部的字段

//UnresolvedRelation [people]被analyzed为Subquery people

name: string, age: int

Project [name#0,age#1]

 Subquery people

  LogicalRDD [name#0,age#1], MapPartitionsRDD[4] at rddToDataFrameHolder at <console>:22

== Optimized Logical Plan ==

LogicalRDD [name#0,age#1], MapPartitionsRDD[4] at rddToDataFrameHolder at <console>:22

== Physical Plan ==

Scan PhysicalRDD[name#0,age#1]

Code Generation: true

3. filter查询执行流程

执行语句：

scala> val filterQuery= sqlContext.sql("SELECT * FROM people WHERE age >= 13 AND age <= 19")

filterQuery: org.apache.spark.sql.DataFrame = [name: string, age: int]

执行流程：

scala> filterQuery.queryExecution

res0: org.apache.spark.sql.SQLContext#QueryExecution =

== Parsed Logical Plan ==

'Project [unresolvedalias(*)]

 'Filter (('age >= 13) && ('age <= 19))

  'UnresolvedRelation [people], None

== Analyzed Logical Plan ==

name: string, age: int

Project [name#0,age#1]

 //多出了Filter。后同

 Filter ((age#1 >= 13) && (age#1 <= 19))

  Subquery people

   LogicalRDD [name#0,age#1], MapPartitionsRDD[4] at rddToDataFrameHolder at <console>:20

== Optimized Logical Plan ==

Filter ((age#1 >= 13) && (age#1 <= 19))

 LogicalRDD [name#0,age#1], MapPartitionsRDD[4] at rddToDataFrameHolder at <console>:20

== Physical Plan ==

Filter ((age#1 >= 13) && (age#1 <= 19))

 Scan PhysicalRDD[name#0,age#1]

Code Generation: true

4. join查询执行流程

执行语句：

val joinQuery= sqlContext.sql("SELECT * FROM people a, people b where a.age=b.age")

查看总体执行流程

scala> joinQuery.queryExecution

res0: org.apache.spark.sql.SQLContext#QueryExecution =

//注意Filter

//Join Inner

== Parsed Logical Plan ==

'Project [unresolvedalias(*)]

 'Filter ('a.age = 'b.age)

  'Join Inner, None

   'UnresolvedRelation [people], Some(a)

   'UnresolvedRelation [people], Some(b)

== Analyzed Logical Plan ==

name: string, age: int, name: string, age: int

Project [name#0,age#1,name#2,age#3]

 Filter (age#1 = age#3)

  Join Inner, None

   Subquery a

    Subquery people

     LogicalRDD [name#0,age#1], MapPartitionsRDD[4] at rddToDataFrameHolder at <console>:22

   Subquery b

    Subquery people

     LogicalRDD [name#2,age#3], MapPartitionsRDD[4] at rddToDataFrameHolder at <console>:22

== Optimized Logical Plan ==

Project [name#0,age#1,name#2,age#3]

 Join Inner, Some((age#1 = age#3))

  LogicalRDD [name#0,age#1], MapPartitionsRDD[4]...

//查看其Physical Plan

scala> joinQuery.queryExecution.sparkPlan

res16: org.apache.spark.sql.execution.SparkPlan =

TungstenProject [name#0,age#1,name#2,age#3]

 SortMergeJoin [age#1], [age#3]

  Scan PhysicalRDD[name#0,age#1]

  Scan PhysicalRDD[name#2,age#3]

前面的样例与以下的样例等同，仅仅只是其执行方式略有不同，执行语句：

scala> val innerQuery= sqlContext.sql("SELECT * FROM people a inner join people b on a.age=b.age")

innerQuery: org.apache.spark.sql.DataFrame = [name: string, age: int, name: string, age: int]

查看总体执行流程：

scala> innerQuery.queryExecution

res2: org.apache.spark.sql.SQLContext#QueryExecution =

//注意Join Inner

//另外这里面没有Filter

== Parsed Logical Plan ==

'Project [unresolvedalias(*)]

 'Join Inner, Some(('a.age = 'b.age))

  'UnresolvedRelation [people], Some(a)

  'UnresolvedRelation [people], Some(b)

== Analyzed Logical Plan ==

name: string, age: int, name: string, age: int

Project [name#0,age#1,name#4,age#5]

 Join Inner, Some((age#1 = age#5))

  Subquery a

   Subquery people

    LogicalRDD [name#0,age#1], MapPartitionsRDD[4] at rddToDataFrameHolder at <console>:22

  Subquery b

   Subquery people

    LogicalRDD [name#4,age#5], MapPartitionsRDD[4] at rddToDataFrameHolder at <console>:22

//注意Optimized Logical Plan与Analyzed Logical Plan

//并没有进行特别的优化，突出这一点是为了比較后面的子查询

//其Analyzed和Optimized间的差别

== Optimized Logical Plan ==

Project [name#0,age#1,name#4,age#5]

 Join Inner, Some((age#1 = age#5))

  LogicalRDD [name#0,age#1], MapPartitionsRDD[4] at rddToDataFrameHolder ...

//查看其Physical Plan

scala> innerQuery.queryExecution.sparkPlan

res14: org.apache.spark.sql.execution.SparkPlan =

TungstenProject [name#0,age#1,name#6,age#7]

 SortMergeJoin [age#1], [age#7]

  Scan PhysicalRDD[name#0,age#1]

  Scan PhysicalRDD[name#6,age#7]

5. 子查询执行流程

执行语句：

scala> val subQuery=sqlContext.sql("SELECT * FROM (SELECT * FROM people WHERE age >= 13)a where a.age <= 19")

subQuery: org.apache.spark.sql.DataFrame = [name: string, age: int]

查看总体执行流程：



scala> subQuery.queryExecution

res4: org.apache.spark.sql.SQLContext#QueryExecution =

== Parsed Logical Plan ==

'Project [unresolvedalias(*)]

 'Filter ('a.age <= 19)

  'Subquery a

   'Project [unresolvedalias(*)]

    'Filter ('age >= 13)

     'UnresolvedRelation [people], None

== Analyzed Logical Plan ==

name: string, age: int

Project [name#0,age#1]

 Filter (age#1 <= 19)

  Subquery a

   Project [name#0,age#1]

    Filter (age#1 >= 13)

     Subquery people

      LogicalRDD [name#0,age#1], MapPartitionsRDD[4] at rddToDataFrameHolder at <console>:22

//这里须要注意Optimized与Analyzed间的差别

//Filter被进行了优化

== Optimized Logical Plan ==

Filter ((age#1 >= 13) && (age#1 <= 19))

 LogicalRDD [name#0,age#1], MapPartitionsRDD[4] at rddToDataFrameHolder at <console>:22

== Physical Plan ==

Filter ((age#1 >= 13) && (age#1 <= 19))

 Scan PhysicalRDD[name#0,age#1]

Code Generation: true

6. 聚合SQL执行流程

执行语句：

scala> val aggregateQuery=sqlContext.sql("SELECT a.name,sum(a.age) FROM (SELECT * FROM people WHERE age >= 13)a where a.age <= 19 group by a.name")

aggregateQuery: org.apache.spark.sql.DataFrame = [name: string, _c1: bigint]

执行流程查看：



scala> aggregateQuery.queryExecution

res6: org.apache.spark.sql.SQLContext#QueryExecution =

//注意'Aggregate ['a.name], [unresolvedalias('a.name),unresolvedalias('sum('a.age))]

//即group by a.name被 parsed为unresolvedalias('a.name)

== Parsed Logical Plan ==

'Aggregate ['a.name], [unresolvedalias('a.name),unresolvedalias('sum('a.age))]

 'Filter ('a.age <= 19)

  'Subquery a

   'Project [unresolvedalias(*)]

    'Filter ('age >= 13)

     'UnresolvedRelation [people], None

== Analyzed Logical Plan ==

name: string, _c1: bigint

Aggregate [name#0], [name#0,sum(cast(age#1 as bigint)) AS _c1#9L]

 Filter (age#1 <= 19)

  Subquery a

   Project [name#0,age#1]

    Filter (age#1 >= 13)

     Subquery people

      LogicalRDD [name#0,age#1], MapPartitionsRDD[4] at rddToDataFrameHolder at <console>:22

== Optimized Logical Plan ==

Aggregate [name#0], [name#0,sum(cast(age#1 as bigint)) AS _c1#9L]

 Filter ((age#1 >= 13) && (age#1 <= 19))

  LogicalRDD [name#0,age#1], MapPartitions...

//查看其Physical Plan

scala> aggregateQuery.queryExecution.sparkPlan

res10: org.apache.spark.sql.execution.SparkPlan =

TungstenAggregate(key=[name#0], functions=[(sum(cast(age#1 as bigint)),mode=Final,isDistinct=false)], output=[name#0,_c1#14L])

 TungstenAggregate(key=[name#0], functions=[(sum(cast(age#1 as bigint)),mode=Partial,isDistinct=false)], output=[name#0,currentSum#17L])

  Filter ((age#1 >= 13) && (age#1 <= 19))

   Scan PhysicalRDD[name#0,age#1]

其他SQL语句。大家能够使用相同的方法查看其执行流程。以掌握Spark SQL背后实现的基本思想。

Spark修炼之道（进阶篇）——Spark入门到精通：第九节 Spark SQL执行流程解析的更多相关文章

Spark修炼之道——Spark学习路线、课程大纲
课程内容 Spark修炼之道(基础篇)--Linux基础(15讲).Akka分布式编程(8讲) Spark修炼之道(进阶篇)--Spark入门到精通(30讲) Spark修炼之道(实战篇)--Spar ...
Spark入门：第1节 Spark概述：1 - 4
2.spark概述 2.1 什么是spark Apache Spark™ is a unified analytics engine for large-scale data processing. ...
Spark入门：第4节 Spark程序：1 - 9
五. Spark角色介绍 Spark是基于内存计算的大数据并行计算框架.因为其基于内存计算,比Hadoop中MapReduce计算框架具有更高的实时性,同时保证了高效容错性和可伸缩性.从2009年诞生 ...
Spark入门：第2节 Spark集群安装：1 - 3；第3节 Spark HA高可用部署：1 - 2
三. Spark集群安装 3.1 下载spark安装包下载地址spark官网:http://spark.apache.org/downloads.html 这里我们使用 spark-2.1.3-bi ...
深入浅出Mybatis系列（十）---SQL执行流程分析（源码篇）
最近太忙了,一直没时间继续更新博客,今天忙里偷闲继续我的Mybatis学习之旅.在前九篇中,介绍了mybatis的配置以及使用, 那么本篇将走进mybatis的源码,分析mybatis 的执行流程, ...
第九篇：Map/Reduce 工作机制分析 - 作业的执行流程
前言从运行我们的 Map/Reduce 程序,到结果的提交,Hadoop 平台其实做了很多事情. 那么 Hadoop 平台到底做了什么事情,让 Map/Reduce 程序可以如此 "轻易& ...
深入浅出Mybatis系列十-SQL执行流程分析（源码篇）
注:本文转载自南轲梦注:博主 Chloneda:个人博客 | 博客园 | Github | Gitee | 知乎最近太忙了,一直没时间继续更新博客,今天忙里偷闲继续我的Mybatis学习之旅.在前 ...
Spark修炼之道（基础篇）——Linux大数据开发基础：第二节：Linux文件系统、文件夹（一）
本节主要内容怎样获取帮助文档 Linux文件系统简单介绍文件夹操作訪问权限 1. 怎样获取帮助文档在实际工作过程其中,常常会忘记命令的使用方式.比如ls命令后面能够跟哪些參数,此时能够使用ma ...
Spark修炼之道（高级篇）——Spark源代码阅读：第十二节 Spark SQL 处理流程分析
作者:周志湖以下的代码演示了通过Case Class进行表Schema定义的样例: // sc is an existing SparkContext. val sqlContext = new o ...

随机推荐

Vue.js—组件快速入门以及实例应用
上次我们学习了Vue.js的基础,并且通过综合的小实例进一步的熟悉了Vue.js的基础应用.今天我们就继续讲讲Vue.js的组件,更加深入的了解Vue,js的使用.首先我们先了解一下什么是Vue.js ...
DNA序列对齐问题
问题描述: 该问题在算法导论中引申自求解两个DNA序列相似度的问题. 可以从很多角度定义两个DNA序列的相似度,其中有一种定义方法就是通过序列对齐的方式来定义其相似度. 给定两个DNA序列A和B,对齐 ...
Java 核心内容相关面试题【2】
第一,谈谈final, finally, finalize的区别. final?修饰符(关键字)如果一个类被声明为final,意味着它不能再派生出新的子类,不能作为父类被继承.因此一个类不能既被声明为 ...
C# 插入排序(数据结构与算法)
1 }
Java多线程学习之线程池源码详解
0.使用线程池的必要性在生产环境中,如果为每个任务分配一个线程,会造成许多问题: 线程生命周期的开销非常高.线程的创建和销毁都要付出代价.比如,线程的创建需要时间,延迟处理请求.如果请求的到达率非常 ...
学习cordic算法所得（流水线结构、Verilog标准）
最近学习cordic算法,并利用FPGA实现,在整个学习过程中,对cordic算法原理.FPGA中流水线设计.Verilog标准有了更加深刻的理解. 首先,cordic算法的基本思想是通过一系列固定的 ...
将传统项目改造为SSM框架的项目
首先第一步改变传统dao层先要再resource文件夹下创建一个applicationContext.xml 内容如下关键代码 <!-- 使spring扫描包下的所 ...
python常用数据结构
0. 字典初始化 d = {'a':1,'b':2} 或 d={} d['a'] = 1 d['b'] = 2 是不是和json格式数据很相似,语法和JavaScript又很相似 1. 变量接受序列分 ...
mysql数据库的安装与基本配置
目录绿色版下载 mysql绿色版(5.7版本的安装与配置) 绿色版下载: mysql官网下载地址:https://www.oracle.com/index.html mysql绿色版(5.7版本的安 ...
dSYM文件分析
什么是 dSYM 文件 Xcode编译项目后,我们会看到一个同名的 dSYM 文件,dSYM 是保存 16 进制函数地址映射信息的中转文件,我们调试的 symbols 都会包含在这个文件中,并且每次编 ...

Spark修炼之道（进阶篇）——Spark入门到精通：第九节 Spark SQL执行流程解析

1.总体执行流程

2.全表查询执行流程

3. filter查询执行流程

4. join查询执行流程

5. 子查询执行流程

6. 聚合SQL执行流程

Spark修炼之道（进阶篇）——Spark入门到精通：第九节 Spark SQL执行流程解析的更多相关文章

随机推荐

热门专题