Spark SQL External Data Sources JDBC官方实现读测试

在最新的master分支上官方提供了Spark JDBC外部数据源的实现，先尝为快。

通过spark-shell测试：

import org.apache.spark.sql.SQLContext

val sqlContext  = new SQLContext(sc)

import sqlContext._

val TBLS_JDBC_DDL = s"""

|CREATE TEMPORARY TABLE spark_tbls

|USING org.apache.spark.sql.jdbc

|OPTIONS (

|  url    'jdbc:mysql://hadoop000:3306/hive?user=root&password=root',

|  dbtable     'TBLS'

|)""".stripMargin

sqlContext.sql(TBLS_JDBC_DDL)

指定列查询:

sql("SELECT * FROM spark_tbls").collect.foreach(println)
[1,1423100397,1,0,spark,0,1,page_views,MANAGED_TABLE,A,D]

[6,1423116106,1,0,spark,0,6,order_created,MANAGED_TABLE,B,E]

[7,1423116131,1,0,spark,0,7,test_load1,MANAGED_TABLE,C,F]

[8,1423116145,1,0,spark,0,8,order_picked,MANAGED_TABLE,null,null]

[9,1423116160,1,0,spark,0,9,order_shipped,MANAGED_TABLE,null,null]

[10,1423116168,1,0,spark,0,10,order_received,MANAGED_TABLE,null,null]

[11,1423116179,1,0,spark,0,11,order_cancelled,MANAGED_TABLE,null,null]

[12,1423116193,1,0,spark,0,12,order_tracking,MANAGED_TABLE,null,null]

[13,1423116248,1,0,spark,0,13,order_tracking_join,MANAGED_TABLE,null,null]

[14,1423116298,1,0,spark,0,14,click_log,MANAGED_TABLE,null,null]

[15,1423116316,1,0,spark,0,15,ad_list,MANAGED_TABLE,null,null][16,1423116324,1,0,spark,0,16,ad_list_string,MANAGED_TABLE,null,null]

[17,1423116338,1,0,spark,0,17,cookie_cats,MANAGED_TABLE,null,null]

查询表中指定列:

sql("SELECT TBL_ID,TBL_NAME,TBL_TYPE FROM spark_tbls").collect.foreach(println)
[1,page_views,MANAGED_TABLE]

[6,order_created,MANAGED_TABLE]

[7,test_load1,MANAGED_TABLE]

[8,order_picked,MANAGED_TABLE]

[9,order_shipped,MANAGED_TABLE]

[10,order_received,MANAGED_TABLE]

[11,order_cancelled,MANAGED_TABLE]

[12,order_tracking,MANAGED_TABLE]

[13,order_tracking_join,MANAGED_TABLE]

[14,click_log,MANAGED_TABLE]

[15,ad_list,MANAGED_TABLE]

[16,ad_list_string,MANAGED_TABLE]

[17,cookie_cats,MANAGED_TABLE]

指定查询条件查询:

sql("SELECT TBL_ID,TBL_NAME,TBL_TYPE FROM spark_tbls WHERE TBL_ID = 1").collect.foreach(println)

[1,page_views,MANAGED_TABLE]

sql("SELECT TBL_ID,TBL_NAME,TBL_TYPE FROM spark_tbls WHERE TBL_ID < 7").collect.foreach(println)

[1,page_views,MANAGED_TABLE]

[6,order_created,MANAGED_TABLE]

sql("SELECT TBL_ID,TBL_NAME,TBL_TYPE FROM spark_tbls WHERE TBL_ID <= 7").collect.foreach(println)

[1,page_views,MANAGED_TABLE]

[6,order_created,MANAGED_TABLE]

[7,test_load1,MANAGED_TABLE]

sql("SELECT TBL_ID,TBL_NAME,TBL_TYPE FROM spark_tbls WHERE TBL_ID > 7").collect.foreach(println)

[8,order_picked,MANAGED_TABLE]

[9,order_shipped,MANAGED_TABLE]

[10,order_received,MANAGED_TABLE]

[11,order_cancelled,MANAGED_TABLE]

[12,order_tracking,MANAGED_TABLE]

[13,order_tracking_join,MANAGED_TABLE]

[14,click_log,MANAGED_TABLE]

[15,ad_list,MANAGED_TABLE]

[16,ad_list_string,MANAGED_TABLE]

[17,cookie_cats,MANAGED_TABLE]

sql("SELECT TBL_ID,TBL_NAME,TBL_TYPE FROM spark_tbls WHERE TBL_ID >= 7").collect.foreach(println)

[7,test_load1,MANAGED_TABLE]

[8,order_picked,MANAGED_TABLE]

[9,order_shipped,MANAGED_TABLE]

[10,order_received,MANAGED_TABLE]

[11,order_cancelled,MANAGED_TABLE]

[12,order_tracking,MANAGED_TABLE]

[13,order_tracking_join,MANAGED_TABLE]

[14,click_log,MANAGED_TABLE]

[15,ad_list,MANAGED_TABLE]

[16,ad_list_string,MANAGED_TABLE]

[17,cookie_cats,MANAGED_TABLE]

sql("SELECT TBL_ID,TBL_NAME,TBL_TYPE,VIEW_EXPANDED_TEXT FROM spark_tbls WHERE VIEW_EXPANDED_TEXT IS NULL").collect.foreach(println)

[8,order_picked,MANAGED_TABLE,null]

[9,order_shipped,MANAGED_TABLE,null]

[10,order_received,MANAGED_TABLE,null]

[11,order_cancelled,MANAGED_TABLE,null]

[12,order_tracking,MANAGED_TABLE,null]

[13,order_tracking_join,MANAGED_TABLE,null]

[14,click_log,MANAGED_TABLE,null]

[15,ad_list,MANAGED_TABLE,null]

[16,ad_list_string,MANAGED_TABLE,null]

[17,cookie_cats,MANAGED_TABLE,null]

sql("SELECT TBL_ID,TBL_NAME,TBL_TYPE,VIEW_EXPANDED_TEXT FROM spark_tbls WHERE VIEW_EXPANDED_TEXT IS NOT NULL").collect.foreach(println)

[1,page_views,MANAGED_TABLE,A]

[6,order_created,MANAGED_TABLE,B]

[7,test_load1,MANAGED_TABLE,C]

sql("SELECT TBL_ID,TBL_NAME,TBL_TYPE,VIEW_EXPANDED_TEXT FROM spark_tbls WHERE TBL_ID>=7 AND TBL_ID <=10").collect.foreach(println)

[7,test_load1,MANAGED_TABLE,C]

[8,order_picked,MANAGED_TABLE,null]

[9,order_shipped,MANAGED_TABLE,null]

[10,order_received,MANAGED_TABLE,null]

多partition并行执行: 可以通过http://hadoop000:4040/jobs/的tasks数查看

val TBLS_PARTS_JDBC_DDL = s"""

|CREATE TEMPORARY TABLE spark_tbls_parts

|USING org.apache.spark.sql.jdbc

|OPTIONS (

|  url    'jdbc:mysql://hadoop000:3306/hive?user=root&password=root',

|  dbtable     'TBLS',

|  partitionColumn 'TBL_ID',

|  lowerBound '',

|  upperBound '',

|  numPartitions ''

|)""".stripMargin

sqlContext.sql(TBLS_PARTS_JDBC_DDL)

sql("SELECT TBL_ID,TBL_NAME,TBL_TYPE,VIEW_EXPANDED_TEXT FROM spark_tbls_parts WHERE VIEW_EXPANDED_TEXT IS NULL").collect.foreach(println)
[8,order_picked,MANAGED_TABLE,null]

[9,order_shipped,MANAGED_TABLE,null]

[10,order_received,MANAGED_TABLE,null]

[11,order_cancelled,MANAGED_TABLE,null]

[12,order_tracking,MANAGED_TABLE,null]

[13,order_tracking_join,MANAGED_TABLE,null]

[14,click_log,MANAGED_TABLE,null]

[15,ad_list,MANAGED_TABLE,null]

[16,ad_list_string,MANAGED_TABLE,null]

[17,cookie_cats,MANAGED_TABLE,null]

[21,emp,MANAGED_TABLE,null]

[22,dept,MANAGED_TABLE,null]

多表关联查询:

val COLUMNS_V2_JDBC_DDL = s"""

|CREATE TEMPORARY TABLE spark_column_v2

|USING org.apache.spark.sql.jdbc

|OPTIONS (

|  url    'jdbc:mysql://hadoop000:3306/hive?user=root&password=root',

|  dbtable     'COLUMNS_V2'

|)""".stripMargin

sqlContext.sql(COLUMNS_V2_JDBC_DDL)

sql("SELECT CD_ID, COLUMN_NAME FROM spark_column_v2").collect.foreach(println)
[1,city_id]

[1,end_user_id]

[1,ip]

[1,referer]

[1,session_id]

[1,track_time]

[1,url]

[6,event_time]

[6,ordernumber]

[7,id]

[7,name]

[8,event_time]

[8,ordernumber]

[9,event_time]

[9,ordernumber]

[10,event_time]

[10,ordernumber]

[11,event_time]

[11,ordernumber]

[12,order_cancelled_ts]

[12,order_created_ts]

[12,order_picked_ts]

[12,order_received_ts]

[12,order_shipped_ts]

[12,ordernumber]

[13,order_cancelled_ts]

[13,order_created_ts]

[13,order_picked_ts]

[13,order_received_ts]

[13,order_shipped_ts]

[13,ordernumber]

[14,ad_id]

[14,cookie_id]

[14,ts]

[15,ad_id]

[15,catalogs]

[15,url]

[16,ad_id]

[16,catalogs]

[16,url]

[17,catalog]

[17,cookie_id]

[17,weight]

[21,comm]

[21,deptno]

[21,empno]

[21,ename]

[21,hiredate]

[21,job]

[21,mgr]

[21,sal]

[22,deptno]

[22,dname]

[22,loc]

sql("SELECT a.TBL_ID, a.TBL_NAME, a.TBL_TYPE, b.CD_ID, b.COLUMN_NAME FROM spark_tbls a join spark_column_v2 b on a.TBL_ID = b.CD_ID WHERE a.TBL_ID = 1").collect.foreach(println)
[1,page_views,MANAGED_TABLE,1,city_id]

[1,page_views,MANAGED_TABLE,1,end_user_id]

[1,page_views,MANAGED_TABLE,1,ip]

[1,page_views,MANAGED_TABLE,1,referer]

[1,page_views,MANAGED_TABLE,1,session_id]

[1,page_views,MANAGED_TABLE,1,track_time]

[1,page_views,MANAGED_TABLE,1,url]

sql("SELECT a.TBL_ID, COUNT(b.CD_ID) FROM spark_tbls a join spark_column_v2 b on a.TBL_ID = b.CD_ID GROUP BY a.TBL_ID").collect.foreach(println)
[1,7]

[6,2]

[7,2]

[8,2]

[9,2]

[10,2]

[11,2]

[12,6]

[13,6]

[14,3]

[15,3]

[16,3]

[17,3]

[21,8]

[22,3]

通过spark-sql测试：

CREATE TEMPORARY TABLE spark_tbls

USING org.apache.spark.sql.jdbc

OPTIONS (

url    'jdbc:mysql://hadoop000:3306/hive?user=root&password=root',

dbtable     'TBLS'

);

SELECT * FROM spark_tbls;



CREATE TEMPORARY TABLE spark_tbls_parts

USING org.apache.spark.sql.jdbc

OPTIONS (

url    'jdbc:mysql://hadoop000:3306/hive?user=root&password=root',

dbtable     'TBLS',

partitionColumn 'TBL_ID',

lowerBound '',

upperBound '',

numPartitions ''

);

SELECT * FROM spark_tbls_parts;



CREATE TEMPORARY TABLE spark_column_v2

USING org.apache.spark.sql.jdbc

OPTIONS (

url    'jdbc:mysql://hadoop000:3306/hive?user=root&password=root',

dbtable     'COLUMNS_V2'

);

select * from spark_column_v2;

SELECT a.TBL_ID, a.TBL_NAME, a.TBL_TYPE, b.CD_ID, b.COLUMN_NAME FROM spark_tbls a join spark_column_v2 b on a.TBL_ID = b.CD_ID WHERE a.TBL_ID = 1

Spark SQL External Data Sources JDBC官方实现读测试的更多相关文章

Spark SQL External Data Sources JDBC官方实现写测试
通过Spark SQL External Data Sources JDBC实现将RDD的数据写入到MySQL数据库中. jdbc.scala重要API介绍: /** * Save this RDD ...
Spark SQL External Data Sources JDBC简易实现
在spark1.2版本中最令我期待的功能是External Data Sources,通过该API可以直接将External Data Sources注册成一个临时表,该表可以和已经存在的表等通过sq ...
Spark SQL 之 Data Sources
#Spark SQL 之 Data Sources 转载请注明出处:http://www.cnblogs.com/BYRans/ 数据源(Data Source) Spark SQL的DataFram ...
Spark(3) - External Data Source
Introduction Spark provides a unified runtime for big data. HDFS, which is Hadoop's filesystem, is t ...
Spark SQL External DataSource简介
随着Spark1.2的发布,Spark SQL开始正式支持外部数据源.这使得Spark SQL支持了更多的类型数据源,如json, parquet, avro, csv格式.只要我们愿意,我们可以开发 ...
How to: Provide Credentials for the Dashboards Module when Using External Data Sources
XAF中使用dashboard模块时,如果使用了sql数据源,可以使用此方法提供连接信息 https://www.devexpress.com/Support/Center/Question/Deta ...
【转载】Spark SQL之External DataSource外部数据源
http://blog.csdn.net/oopsoom/article/details/42061077 一.Spark SQL External DataSource简介随着Spark1.2的发 ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
What’s new for Spark SQL in Apache Spark 1.3（中英双语）
文章标题 What’s new for Spark SQL in Apache Spark 1.3 作者介绍 Michael Armbrust 文章正文 The Apache Spark 1.3 re ...

随机推荐

黑马程序员——OC语言核心语法（2）
Java培训.Android培训.iOS培训..Net培训.期待与您交流! (以下内容是对黑马苹果入学视频的个人知识点总结) (一)id 1)简介:万能指针,能指向任何OC对象,相当于NSObject ...
Android图片加载与缓存开源框架：Android Glide
<Android图片加载与缓存开源框架:Android Glide> Android Glide是一个开源的图片加载和缓存处理的第三方框架.和Android的Picasso库类似,个人感觉 ...
二分查找C++
#include <iostream> using namespace std; //二分查找:每次都从中间位置寻找,如果找到了就返回,如果没找到, //则分两种情况: //(1)中间元素 ...
js中的offsetWidth岁的BUG
---恢复内容开始--- 在js使用offsetWidth来操作控件的运动是会遇到: var oDiv = document.getElementById('div1') oDiv.style.wid ...
日常笔记 ---- 图形学-Frenel函数材质球实现方式
图形学-Frenel函数材质球实现方式调个材质大概公式自发光= 自定义边光颜色* ((1-法线与视角方向点乘)的自定义幂次方 ) 这个是比较简单方法模型的法线与视角方向角度越大表 ...
Java最最基础的语法小结
一定得记住,不然吃大亏了真的注意不可同时运行,每次只能运行一个类型 package aad;///建根文件的时候选择了这一项就要写,没选择可以不用写 import java.io.*; import ...
ACE - ACE_Task源码剖析及线程池实现
原文出自http://www.cnblogs.com/binchen-china,禁止转载. 上篇提到用Reactor模式,利用I/O复用,获得Socket数据并且实现I/O层单线程并发,和dispa ...
iscroll动态加载数据完美解决方案
@{ Layout = null; } <!DOCTYPE html> <html> <head> <meta charset="utf-8&quo ...
asp.net与asp.net 优缺点
Asp.net Mvc架构模式是一种低耦合.可测试的web应用程序框架,它是基于CLR和成熟的MVC架构构建的.ASP.NET MVC不支持ViewState和服务器控件. Asp.net优点: 1 ...
linux网卡驱动移植
这里重要的是物理层PHY receiver,MAC(media access control)层,这里与软件中的协议栈不同,在硬件上MAC是PHY的下一层.DM9000A将MAC和PHY做到一起,也可 ...

Spark SQL External Data Sources JDBC官方实现读测试

Spark SQL External Data Sources JDBC官方实现读测试的更多相关文章

随机推荐

热门专题