Spark SQL External DataSource简介

随着Spark1.2的发布，Spark SQL开始正式支持外部数据源。这使得Spark SQL支持了更多的类型数据源，如json, parquet, avro, csv格式。只要我们愿意，我们可以开发出任意的外部数据源来连接到Spark SQL。

示例：存储json数据。

CREATE TEMPORARY TABLE jsonTable

USING org.apache.spark.sql.json

OPTIONS (

  path '/path/to/data.json'

)

详细示例：
1. DDL创建外部数据资源表jsonTable

scala> import org.apache.spark.sql.SQLContext

scala> import sqlContext._

//创建jsonTable外部数据源表，并且指定其数数据源文件是people.json这个json文件，同时指定使用org.apache.spark.sql.json该类型的隐式转化类

scala> val jsonDDL = s"""

     | |CREATE TEMPORARY TABLE jsonTable

     | |USING org.apache.spark.sql.json

     | |OPTIONS (

     | | path  'file:///Users/shengli/git_repos/spark/examples/src/main/resources/people.json'

     | |)""".stripMargin

jsonDDL: String =

"

CREATE TEMPORARY TABLE jsonTable

USING org.apache.spark.sql.json

OPTIONS (

 path  'file:///Users/shengli/git_repos/spark/examples/src/main/resources/people.json'

)"

scala> sqlContext.sql(jsonDDL).collect() //创建该外部数据源表jsonTable

res0: Array[org.apache.spark.sql.Row] = Array()

2.查看schemaRDD

scala> val jsonSchema = sqlContext.sql(jsonDDL)
ExecutedCommand来取把数据用spark.sql.json的方式从path加载到jsonTable中。

3.查看各阶段执行计划：

scala> sqlContext.sql("select * from jsonTable").queryExecution
4.sql查询：

scala> sqlContext.sql("select * from jsonTable")
5.执行sql：

scala> sqlContext.sql("select * from jsonTable").collect

API使用：

scala> sqlContext.jsonFile("file:///Users/shengli/git_repos/spark/examples/src/main/resources/people.json")

scala> json.registerTempTable("jsonFile")

scala> sql("select * from jsonFile").collect()

Spark SQL External DataSource简介的更多相关文章

Spark SQL External Data Sources JDBC官方实现写测试
通过Spark SQL External Data Sources JDBC实现将RDD的数据写入到MySQL数据库中. jdbc.scala重要API介绍: /** * Save this RDD ...
Spark SQL External Data Sources JDBC简易实现
在spark1.2版本中最令我期待的功能是External Data Sources,通过该API可以直接将External Data Sources注册成一个临时表,该表可以和已经存在的表等通过sq ...
Spark SQL External Data Sources JDBC官方实现读测试
在最新的master分支上官方提供了Spark JDBC外部数据源的实现,先尝为快. 通过spark-shell测试: import org.apache.spark.sql.SQLContext v ...
【转载】Spark SQL之External DataSource外部数据源
http://blog.csdn.net/oopsoom/article/details/42061077 一.Spark SQL External DataSource简介随着Spark1.2的发 ...
[转] Spark sql 内置配置（V2.2）
[From] https://blog.csdn.net/u010990043/article/details/82842995 最近整理了一下spark SQL内置配.加粗配置项是对sparkSQL ...
第十一篇：Spark SQL 源码分析之 External DataSource外部数据源
上周Spark1.2刚发布,周末在家没事,把这个特性给了解一下,顺便分析下源码,看一看这个特性是如何设计及实现的. /** Spark SQL源码分析系列文章*/ (Ps: External Data ...
Spark SQL之External DataSource外部数据源（二）源代码分析
上周Spark1.2刚公布,周末在家没事,把这个特性给了解一下,顺便分析下源代码,看一看这个特性是怎样设计及实现的. /** Spark SQL源代码分析系列文章*/ (Ps: External Da ...
spark SQL （一）初识，简介
一, 简介 Spark SQL是用于结构化数据处理的Spark模块.与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了关于数据结构和正在执行的计算的更多信息.在内部 ...
Spark SQL概念学习系列之Spark SQL的简介（一）
Spark SQL提供在大数据上的SQL查询功能,类似于Shark在整个生态系统的角色,它们可以统称为SQL on Spark. 之前,Shark的查询编译和优化器依赖于Hive,使得Shark不得不 ...

随机推荐

python字典和条件控制
元组tuple 元组其实跟列表差不多,也是存一组数,只不是它一旦创建,便不能再修改,所以又叫只读列表注意单个tuple元素的时候,元素后面要加",",否则python解析器不会识 ...
电子签名在K2中的应用
全球越来越多的企业开始使用电子签名(即eSignatures),在减少碳排放的同时简化业务流程,提高文档安全性,便于记录保存,并降低企业成本.在美国法律下,电子签名具备等同于手写签名的法律效力. 什么 ...
iptables介绍
iptables防火墙可以用于创建过滤(filter)与NAT规则.所有Linux发行版都能使用iptables. iptables的结构:iptables-->Tables-->Chai ...
[Oracle][DATAGUARD] PHYSICAL STANDBY环境里，11.2.0.4 , 也可以使用Pfile来运行Primary和Standby（虽然很少有人用）
####Primary#### [oracle@primary ~]$ sqlplus / as sysdba SQL*Plus: Release 11.2.0.4.0 Production on 金 ...
python1-集合、函数-（全局变量与局部变量）
集合 # s=set('hello')# print(s)## s=set(['alex','alex','sb'])# print(s) # s={1,2,3,4,5,6} #添加# s.add(' ...
POJO、JavaBean、DTO的区别
一.POJO(Plain Ordinary Java Object)简单的Java对象,其中有一些属性及其getter setter方法的类,没有业务逻辑(重点理解一下"没有业务逻辑&quo ...
本地安装了Maven但Eclipse的Preferences中没有Maven怎么办？
Maven是帮助我们进行项目构建管理的一个重要工具,Emmmmmm,因为还是个小白,这里就不装大明白了,就我目前了解Maven是用来管理jar包的,想要在Eclipse上运行就要将它集成到Eclips ...
centos7 下安装mysql教程
最近要在centos服务器上配置环境,在部署mysql的时候,碰到各种各样的问题,网上博客文章也是有各种坑,目前发现一个比较好的博客: https://blog.csdn.net/xiaomojun/ ...
dict的几个要点
1. 采用key,value键-值对进行存储 2. key必须是不可变对象 3. key值不能重复添加元素: aDict = {'1':'aaa','b':'bbb','3':'ccc'} aDic ...
自学python之路（day6）
一函数的定义与调用现在需要一个程序来实现len()的功能. 计算字符串 s 长度 s='好好学习' #函数的定义def my_len(): i = for k in s: i += print(i ...

Spark SQL External DataSource简介

Spark SQL External DataSource简介的更多相关文章

随机推荐

热门专题