7.Spark SQL

1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。

　　SparkSQL出现是因为关系数据库已经不能满足各种在大数据时代新增的用户需求。首先，用户需要在不同的结构化和非结构化数据中执行各种操作。其次，用户需要执行像机器学习和图像处理等等高级分析，在实际应用中，也经常需要融合关系查询和分析复杂算法。而SparkSQL正好可以弥补这个缺陷。

起源

　　在三四年前，Hive可以说是SQL on Hadoop的唯一选择，负责将SQL编译成可扩展的MapReduce作业。鉴于Hive的性能以及与Spark的兼容，Shark项目由此而生。
　　Shark即Hive on Spark，本质上是通过Hive的HQL解析，把HQL翻译成Spark上的RDD操作，然后通过Hive的metadata获取数据库里的表信息，实际HDFS上的数据和文件，会由Shark获取并放到Spark上运算。Shark的最大特性就是快和与Hive的完全兼容，且可以在shell模式下使用rdd2sql()这样的API，把HQL得到的结果集，继续在scala环境下运算，支持自己编写简单的机器学习或简单分析处理函数，对HQL结果进一步分析计算。

发展

　　在2014年7月1日的Spark Summit上，Databricks宣布终止对Shark的开发，将重点放到Spark SQL上。
　　Databricks表示，Spark SQL将涵盖Shark的所有特性，用户可以从Shark 0.9进行无缝的升级。
　　Databricks推广的Shark相关项目一共有两个，分别是Spark SQL和新的Hive on Spark（HIVE-7292）
　　Databricks表示，Shark更多是对Hive的改造，替换了Hive的物理执行引擎，因此会有一个很快的速度。然而，不容忽视的是，Shark继承了大量的Hive代码，因此给优化和维护带来了大量的麻烦。

2.简述RDD 和DataFrame的联系与区别

联系：
　　1.都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利。
　　2、都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action才会运算。
　　3.都会根据spark的内存情况自动缓存运算，这样即使数据量很大，也不用担心会内存溢出
　　4、三者都有partition的概念。
　　5.三者有许多共同的函数，如filter，排序等。

区别：
　　RDD是分布式的java对象的集合，但是对象内部结构对于RDD而言却是不可知的。
　　DataFrame是一种以RDD为基础的分布式数据集，提供了详细的结构信息，相当于关系数据库中的一张表。

3.DataFrame的创建与保存

　　3.1 PySpark-DataFrame创建：

　　spark.read.text(url)

　　spark.read.json(url)

　　spark.read.format("text").load("people.txt")

　　spark.read.format("json").load("people.json")

　　描述从不同文件类型生成DataFrame的区别。
　　text文件生成的DataFrame只有value属性；而json文件生成的DataFrame会识别到文件中的键值

　　用相同的txt或json文件，同时创建RDD，比较RDD与DataFrame的区别。

　　区别：RDD是直接输出对象，DataFrame是以对象里面的的详细结构进行输出

　　3.2 DataFrame的保存
　　df.write.text(dir)

　　df.write.json(dri)

　　df.write.format("text").save(dir)

　　df.write.format("json").save(dir)

4.选择题

　　4.1单选(2分)‍关于Shark，下面描述正确的是：C
　　　　A.Shark提供了类似Pig的功能
　　　　B.Shark把SQL语句转换成MapReduce作业
　　　　C.Shark重用了Hive中的HiveQL解析、逻辑执行计划翻译、执行计划优化等逻辑
　　　　D.Shark的性能比Hive差很多

　　4.2单选(2分)‏下面关于Spark SQL架构的描述错误的是：D
　　　　A.在Shark原有的架构上重写了逻辑执行计划的优化部分，解决了Shark存在的问题
　　　 B.Spark SQL在Hive兼容层面仅依赖HiveQL解析和Hive元数据
　　　 C.Spark SQL执行计划生成和优化都由Catalyst（函数式关系查询优化框架）负责

　　　　D.Spark SQL执行计划生成和优化需要依赖Hive来完成

　　4.3单选(2分)‌要把一个DataFrame保存到people.json文件中，下面语句哪个是正确的：A
　　　　A.df.write.json("people.json")
　　　　B.df.json("people.json")
　　　　C.df.write.format("csv").save("people.json")
　　　　D.df.write.csv("people.json")

　　4.4多选(3分)‎Shark的设计导致了两个问题：AC
　　　　A.执行计划优化完全依赖于Hive，不方便添加新的优化策略
　　　　B.执行计划优化不依赖于Hive，方便添加新的优化策略
　　　　C.Spark是线程级并行，而MapReduce是进程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使　　　　用另外一套独立维护的、打了补丁的Hive源码分支
　　　　D.Spark是进程级并行，而MapReduce是线程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使　　　　用另外一套独立维护的、打了补丁的Hive源码分支

　　4.5 多选(3分)‌下面关于为什么推出Spark SQL的原因的描述正确的是：AB
　　　　A.Spark SQL可以提供DataFrame API，可以对内部和外部各种数据源执行各种关系操作
　　　　B.可以支持大量的数据源和数据分析算法，组合使用Spark SQL和Spark MLlib，可以融合传统关系数据库的结构化数据管理能力　　　　和机器学习算法的数据处理能力
　　　　C.Spark SQL无法对各种不同的数据源进行整合
　　　　D.Spark SQL无法融合结构化数据管理能力和机器学习算法的数据处理能力

　　4.6多选(3分)‌下面关于DataFrame的描述正确的是：ABCD
　　　　A.DataFrame的推出，让Spark具备了处理大规模结构化数据的能力
　　　　B.DataFrame比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能
　　　　C.Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询
　　　　D.DataFrame是一种以RDD为基础的分布式数据集，提供了详细的结构信息

　　4.7多选(3分)‏要读取people.json文件生成DataFrame，可以使用下面哪些命令：AC
　　　　A.spark.read.json("people.json")
　　　　B.spark.read.parquet("people.json")
　　　　C.spark.read.format("json").load("people.json")
　　　　D.spark.read.format("csv").load("people.json")

5. PySpark-DataFrame各种常用操作
　　5.1基于df的操作：
　　打印数据 df.show()默认打印前20条数据

　　打印概要 df.printSchema()

　　查询总行数 df.count()

　　df.head(3) #list类型，list中每个元素是Row类

　　输出全部行 df.collect() #list类型，list中每个元素是Row类

　　查询概况 df.describe().show()

　　取列 df[‘name’], df.name, df[1]

　　选择 df.select() 每个人的年龄+1

　　筛选 df.filter() 20岁以上的人员信息

　　筛选年龄为空的人员信息

　　分组df.groupBy() 统计每个年龄的人数

　　排序df.sortBy() 按年龄进行排序

　　5.2 基于spark.sql的操作
　　创建临时表 df.registerTempTable('people')

　　spark.sql执行SQL语句 spark.sql('select name from people').show()

　　5.3 pyspark中DataFrame与pandas中DataFrame
　　分别从文件创建两种DataFrame

　　查看两种df的区别
　　pandas中DataFrame转换为Pyspark中DataFrame

　　Pyspark中DataFrame转换为pandas中DataFrame

7.从RDD转换得到DataFram:
　　7.1 利用反射机制推断RDD模式
　　创建RDD sc.textFile(url).map()，读文件，分割数据项

　　每个RDD元素转换成 Row

　　由Row-RDD转换到DataFrame

　　7.2 使用编程方式定义RDD模式
　　#下面生成“表头”

　　#下面生成“表中的记录”

　　#下面把“表头”和“表中的记录”拼装在一起

8.选择题：

　　8.1单选(2分)以下操作中，哪个不是DataFrame的常用操作： D
　　A.printSchema()
　　B.select()
　　C.filter()
　　D.sendto()

　　8.2多选(3分)‏从RDD转换得到DataFrame包含两种典型方法，分别是： AB
　　A.利用反射机制推断RDD模式
　　B.使用编程方式定义RDD模式
　　C.利用投影机制推断RDD模式
　　D.利用互联机制推断RDD模式

　　8.3多选(3分)‍使用编程方式定义RDD模式时，主要包括哪三个步骤： ABC
　　A.制作“表头”
　　B.制作“表中的记录”
　　C.制作映射表
　　D.把“表头”和“表中的记录”拼装在一起

7.Spark SQL的更多相关文章

Spark SQL 之 Data Sources
#Spark SQL 之 Data Sources 转载请注明出处:http://www.cnblogs.com/BYRans/ 数据源(Data Source) Spark SQL的DataFram ...
Spark SQL 之 DataFrame
Spark SQL 之 DataFrame 转载请注明出处:http://www.cnblogs.com/BYRans/ 概述(Overview) Spark SQL是Spark的一个组件,用于结构化 ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...
Spark SQL Example
Spark SQL Example This example demonstrates how to use sqlContext.sql to create and load a table ...
通过Spark SQL关联查询两个HDFS上的文件操作
order_created.txt 订单编号订单创建时间 -- :: -- :: -- :: -- :: -- :: order_picked.txt 订单编号订单提取时间 -- :: ...
Spark SQL 之 Migration Guide
Spark SQL 之 Migration Guide 支持的Hive功能转载请注明出处:http://www.cnblogs.com/BYRans/ Migration Guide 与Hive的兼 ...
Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...
Spark SQL 之 Performance Tuning & Distributed SQL Engine
Spark SQL 之 Performance Tuning & Distributed SQL Engine 转载请注明出处:http://www.cnblogs.com/BYRans/ 缓 ...
基于Spark1.3.0的Spark sql三个核心部分
基于Spark1.3.0的Spark sql三个核心部分: 1.可以架子啊各种结构化数据源(JSON,Hive,and Parquet) 2.可以让你通过SQL,saprk内部程序或者外部攻击,通过标 ...

随机推荐

算法基础③--DFS解决迷宫问题入门
迷宫问题通过深度优先搜索(DFS)方法实现. 迷宫问题一一天蒜头君掉进了一个迷宫里面,蒜头君想逃出去,可怜的蒜头君连迷宫是否有能逃出去的路都不知道. 看在蒜头君这么可怜的份上,就请聪明的你告诉蒜头 ...
React项目中使用wangeditor以及扩展上传附件菜单
在最近的工作中需要用到富文本编辑器,结合项目的UI样式以及业务需求,选择了wangEditor.另外在使用的过程中发现wangEditor只有上传图片和视频的功能,没有上传文本附件的功能,所以需要对其 ...
2021.12.06 P1450 [HAOI2008]硬币购物（组合数学+抽屉原理+DP）
2021.12.06 P1450 [HAOI2008]硬币购物(组合数学+抽屉原理+DP) https://www.luogu.com.cn/problem/P1450 题意: 共有 44 种硬币.面 ...
XCTF练习题---MISC---如来十三掌
XCTF练习题---MISC---如来十三掌 flag:flag{bdscjhbkzmnfrdhbvckijndskvbkjdsab} 解题步骤: 1.观察题目,下载附件进行查看 2.打开附件,压根看 ...
php错误异常及其排错
错误和异常错误 php程序自身的问题,一般是由非法的语法,环境问题导致异常一般是业务逻辑上出现的不合预期.与正常流程不同的状况,不是语法错误错误异常继承关系小括号表示php版本 php7下的 ...
vue - vue基础/vue核心内容
终于算是顺利进入vue了,确实也只有学了过后才知道,之前三过vue而不学,确实是对的,现在进来了一点都不后悔,ajax.node.js.promise.webpack.git等等确实是除了三大基础外还 ...
CentOS 8配置本地yum源及DNF简介
CentOS 8更改了软件包的安装程序,取消了 yum 的配置方法,改而使用了dnf 作为安装程序.虽然改变了软件包的安装方式,但是 dnf 还是能兼容使用 yum 的配置文件和命令的使用方法. 小提 ...
面试突击44：volatile 有什么用？
volatile 是 Java 并发编程的重要组成部分,也是常见的面试题之一,它的主要作用有两个:保证内存的可见性和禁止指令重排序.下面我们具体来看这两个功能. 内存可见性说到内存可见性问题就不得不 ...
Web安全学习笔记 SQL注入下
Web安全学习笔记 SQL注入下繁枝插云欣 --ICML8 SQL注入小技巧 CheatSheet 预编译参考文章一点心得一.SQL注入小技巧 1. 宽字节注入一般程序员用gbk编码做开发的 ...
基于DEM的坡度坡向分析
坡度坡向分析方法坡度(slope)是地面特定区域高度变化比率的量度.坡度的表示方法有百分比法.度数法.密位法和分数法四种,其中以百分比法和度数法较为常用.本文计算的为坡度百分比数据.如当角度为45度 ...

7.Spark SQL

7.Spark SQL的更多相关文章

随机推荐

热门专题