一、简介

  Spark SQL 提供了以下三大功能。
   (1) Spark SQL 可以从各种结构化数据源(例如 JSON、Hive、Parquet 等)中读取数据。
   (2) Spark SQL 不仅支持在 Spark 程序内使用 SQL 语句进行数据查询,也支持从类似商业智能软件 Tableau 这样的外部工具中通过标准数据库连接器(JDBC/ODBC)连接 SparkSQL 进行查询。
   (3) 当在 Spark 程序内使用 Spark SQL 时,Spark SQL 支持 SQL 与常规的 Python/Java/Scala代码高度整合,包括连接 RDD 与 SQL 表、公开的自定义 SQL 函数接口等。这样一来,许多工作都更容易实现了。

二、Spark SQL基本示例

  

  1. import org.apache.spark.SparkContext
  2. import org.apache.spark.SparkConf
  3. import org.apache.spark.sql.hive.HiveContext
  4. import org.apache.spark.sql.SQLContext
  5.  
  6. object Test {
  7. def main(args: Array[String]): Unit = {
  8.  
  9. val conf = new SparkConf().setAppName("test").setMaster("local[4]")
  10. val sc = new SparkContext(conf)
  11. sc.setLogLevel("WARN") // 设置日志显示级别
  12. val hiveCtx = new HiveContext(sc)
  13. val input = hiveCtx.jsonFile("tweets.json")
  14. input.registerTempTable("tweets")
  15. // hiveCtx.cacheTable("tweets") 缓存表
  16. // input.printSchema() // 输出结构信息
  17. val topTweets = hiveCtx.sql("SELECT user.name,text FROM tweets")
  18. topTweets.collect().foreach(println)
  19.  
  20. }
  21. }

  

三、SchemaRDD

  读取数据和执行查询都会返回 SchemaRDD。SchemaRDD 和传统数据库中的表的概念类似。从内部机理来看,SchemaRDD 是一个由 Row 对象组成的 RDD,附带包含每列数据类型的结构信息。 Row 对象只是对基本数据类型(如整型和字符串型等)的数组的封装。在 Spark 1.3 版本以后,SchemaRDD 这个名字被改为 DataFrame。SchemaRDD 仍然是 RDD,所以你可以对其应用已有的 RDD 转化操作,比如 map() 和filter() 。

  SchemaRDD 可以存储一些基本数据类型,也可以存储由这些类型组成的结构体和数组。

  

   

四、缓存

  Spark SQL 的缓存机制与 Spark 中的稍有不同。由于我们知道每个列的类型信息,所以Spark 可以更加高效地存储数据。为了确保使用更节约内存的表示方式进行缓存而不是储存整个对象,应当使用专门的 hiveCtx.cacheTable("tableName") 方法。当缓存数据表时,Spark SQL 使用一种列式存储格式在内存中表示数据。这些缓存下来的表只会在驱动器程序的生命周期里保留在内存中,所以如果驱动器进程退出,就需要重新缓存数据。和缓存RDD 时的动机一样,如果想在同样的数据上多次运行任务或查询时,就应把这些数据表缓存起来。

五、读取和存储数据

1、 Apache Hive  

  当从 Hive 中读取数据时,Spark SQL 支持任何 Hive 支持的存储格式,包括文本文件、RCFiles、ORC、Parquet、Avro,以及 Protocol Buffer。要把 Spark SQL 连接到已经部署好的 Hive 上,你需要提供一份 Hive 配置。你只需要把你的 hive-site.xml 文件复制到 Spark 的 ./conf/ 目录下即可。如果你只是想探索一下 Spark SQL而没有配置 hive-site.xml 文件,那么 Spark SQL 则会使用本地的 Hive 元数据仓,并且同样可以轻松地将数据读取到 Hive 表中进行查询。

  1. // 使用 Scala 从 Hive 读取
  2. val hiveCtx = new HiveContext(sc)
  3. val rows = hiveCtx.sql("SELECT key, value FROM mytable")
  4. val keys = rows.map(row => row.getInt(0))

2、Parquet

  Parquet(http://parquet.apache.org/)是一种流行的列式存储格式,可以高效地存储具有嵌套字段的记录。Parquet 格式经常在 Hadoop 生态圈中被使用,它也支持 Spark SQL 的全部数据类型。Spark SQL 提供了直接读取和存储 Parquet 格式文件的方法。可以通过 HiveContext.parquetFile 或者 SQLContext.parquetFile 来读取数据。

3、JSON

  要读取 JSON 数据,只要调用 hiveCtx 中的 jsonFile() 方法即可。如果你想获得从数据中推断出来的结构信息,可以在生成的 SchemaRDD 上调用printSchema 方法。

4、基于RDD

  除了读取数据,也可以基于 RDD 创建 DataFrame。

  1. /**SQLContext 创建 DataFrame **/
  2. def createDtaFrame(sparkCtx:SparkContext,sqlCtx:SQLContext):Unit = {
  3. val rowRDD = sparkCtx.textFile("D://TxtData/studentInfo.txt").map(_.split(",")).map(p => Row(p(0),p(1).toInt,p(2)))
  4. val schema = StructType(
  5. Seq(
  6. StructField("name",StringType,true),
  7. StructField("age",IntegerType,true),
  8. StructField("studentNo",StringType,true)
  9. )
  10. )
  11. val dataDF = sqlCtx.createDataFrame(rowRDD,schema)
  12.  
  13. //df注册到内存表
  14. dataDF.registerTempTable("Student")
  15. val result = sqlCtx.sql("select * from Student")
  16. result.show()
  17.  
  18. // dataDF.select("name").show()
  19. // dataDF.filter(dataDF("age") <14).show()
  20. // dataDF.where("age <> ''").show()
  21. }

5、Spark SQL UDF

  用户自定义函数,也叫 UDF,可以让我们使用 Python/Java/Scala 注册自定义函数,并在 SQL中调用。这种方法很常用,通常用来给机构内的 SQL 用户们提供高级功能支持,这样这些用户就可以直接调用注册的函数而无需自己去通过编程来实现了。在 Spark SQL 中,编写UDF 尤为简单。Spark SQL 不仅有自己的 UDF 接口,也支持已有的 Apache Hive UDF。

  1. // 写一个求字符串长度的UDF 原书代码会报错,查阅官方文档得知
  2. hiveCtx.udf.register("strLenScala", (_: String).length)
  3. val tweetLength = hiveCtx.sql("SELECT strLenScala('tweet') FROM tweets LIMIT 10")

  注意:因为Spark版本的原因,原书的代码会报错,有一个好的解决方式,就是查阅官方文档。

  

六、Spark SQL性能

  Spark SQL 提供的高级查询语言及附加的类型信息可以使 SparkSQL 数据查询更加高效。

  Spark SQL 的性能调优选项如下表所示

  

  在一个传统的 Spark SQL 应用中,可以在 Spark 配置中设置这些 Spark 属性。

  1. // 在 Scala 中打开 codegen 选项的代码
  2. conf.set("spark.sql.codegen", "true")

  Spark Sql官方文档

  这篇博文主要来自《Spark快速大数据分析》这本书里面的第九章,内容有删减,还有本书的一些代码的实验结果。还要注意一点,在以后的学习中要养成查阅官方文档的习惯。

Spark学习之Spark SQL的更多相关文章

  1. Spark学习之Spark SQL(8)

    Spark学习之Spark SQL(8) 1. Spark用来操作结构化和半结构化数据的接口--Spark SQL. 2. Spark SQL的三大功能 2.1 Spark SQL可以从各种结构化数据 ...

  2. Spark学习之Spark Streaming(9)

    Spark学习之Spark Streaming(9) 1. Spark Streaming允许用户使用一套和批处理非常接近的API来编写流式计算应用,这就可以大量重用批处理应用的技术甚至代码. 2. ...

  3. Spark学习之Spark调优与调试(7)

    Spark学习之Spark调优与调试(7) 1. 对Spark进行调优与调试通常需要修改Spark应用运行时配置的选项. 当创建一个SparkContext时就会创建一个SparkConf实例. 2. ...

  4. Spark学习一:Spark概述

    1.1 什么是Spark ​ Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎. ​ 一站式管理大数据的所有场景(批处理,流处理,sql) ​ spark不涉及到数据的存储,只 ...

  5. Spark学习笔记--Spark在Windows下的环境搭建

    本文主要是讲解Spark在Windows环境是如何搭建的 一.JDK的安装 1.1 下载JDK 首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略.JDK(全称是JavaTM P ...

  6. Spark学习(一) Spark初识

    一.官网介绍 1.什么是Spark 官网地址:http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎. 从右侧最后一条新闻看,Spark也用于A ...

  7. Spark学习笔记--Spark在Windows下的环境搭建(转)

    本文主要是讲解Spark在Windows环境是如何搭建的 一.JDK的安装 1.1 下载JDK 首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略.JDK(全称是JavaTM P ...

  8. Spark学习(4) Spark Streaming

    什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理 Spark Streaming有高吞吐量和容错能力强等特点.Spark Stre ...

  9. Spark学习之Spark Streaming

    一.简介 许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用.训练机器学习模型的应用,还有自动检测异常的应用.Spark Streaming 是 Spark 为这些应用而设计的模型.它 ...

随机推荐

  1. Neo4j安装后的密码修改

    首先默认用户名/密码是neo4j/neo4j. 在安全验证打开的时候,你访问服务器/db/data之类的地址可能会提示您以下信息: { "password_change" : &q ...

  2. 在Django中使用Neo4j

    重要的先说在前面吧,最后的选型结构是安装了最新的neo4j版本3.0.3,使用了neo4j-rest-client客户端库.主要原因是更适用于django的neomodel库目前只支持neo4j2.2 ...

  3. .net core2.0添加json文件并转化成类注入控制器使用

    上一篇,我们介绍了如何读取自定义的json文件,数据是读取出来了,只是处理的时候太麻烦,需要一遍一遍写,很枯燥.那么有没有很好的办法呢?经过钻研,办法有了. 既然一个一个读取比较麻烦,那么可以把它放入 ...

  4. 163邮箱 SMTP发送邮件注意点

    在之前163邮箱注册的时候默认开通SMTP服务的,之后需要自己手动开始. 在配置的时候服务器的地址固定 用户名称就是你的邮箱 密码需要注意的是有的是你邮箱的密码,如果不对需要填写你的授权码!

  5. win10更新失败——适用于Windows 10 Version 1709 的03累积更新,适合基于x64系统(KB4088776)更新失败

    相信最近很多人被windows的更新折磨坏了,下面来介绍一下解决办法,有用的话请点赞! 首先将C盘中的这个文件夹删除:"C:\Windows\System32\Tasks\Microsoft ...

  6. JS中sessionstorage的getItem/setItem/removeItem/clear

    function people(){ } var animal = { name: "cc", age:16, say:function(m1,m2){ alert("他 ...

  7. spring容器和springmvc容器,以及web容器的关系

    说到spring和springmvc,其实有很多人分不清他们有什么区别,认为它俩是一样的,如果你问他项目里用的什么MVC技术,他会说我们用的spring和mybatis,或者spring和hibern ...

  8. 15.linux基础

    1.目录 /:根目录,一般根目录下只存放目录,在Linux下有且只有一个根目录.所有的东西都是从这里开始.当你在终端里输入“/home”,你其实是在告诉电脑,先从/(根目录)开始,再进入到home目录 ...

  9. Django+xadmin打造在线教育平台(五)

    目录 在线教育平台(一)      在线教育平台(二) 在线教育平台(三)      在线教育平台(四) 在线教育平台(五)      在线教育平台(六) 在线教育平台(七)      在线教育平台( ...

  10. 读《图解HTTP》有感-(确保WEB安全的HTTPS)

    写在前面 该章节分析当前使用的HTTP协议中存在的安全性问题,以及采用HTTPS协议来规避这些可能存在的缺陷 正文 1.HTTP的缺点 1.1.由于HTTP不具备加密功能,所以在通信链路上,报文是以明 ...