Spark SQL例子

综合案例分析

现有数据集 department.json与employee.json，以部门名称和员工性别为粒度，试计算每个部门分性别平均年龄与平均薪资。 department.json如下：

{"id":1,"name":"Tech Department"}

{"id":2,"name":"Fina Department"}

{"id":3,"name":"HR Department"}

employee.json如下：

{"name":"zhangsan","age":26,"depId":1,"gender":"male","salary":20000}

{"name":"lisi","age":36,"depId":2,"gender":"female","salary":8500}

{"name":"wangwu","age":23,"depId":1,"gender":"male","salary":5000}

{"name":"zhaoliu","age":25,"depId":3,"gender":"male","salary":7000}

{"name":"marry","age":19,"depId":2,"gender":"female","salary":6600}

{"name":"Tom","age":36,"depId":1,"gender":"female","salary":5000}

{"name":"kitty","age":43,"depId":2,"gender":"female","salary":6000}

两份数据我们在演示的时候已经创建并上传至 hdfs 文件系统，用户在这里需要请自行创建。

执行命令:

root@foo2 cloudera]# cd /root/device-report/

[root@foo2 device-report]# ls

b.txt test.sql

[root@foo2 device-report]# vim department.json

[root@foo2 device-report]# vim employee.json

[root@foo2 device-report]# ls

b.txt department.json employee.json test.sql

[root@foo2 device-report]# chown hdfs:hdfs department.json

[root@foo2 device-report]# chown hdfs:hdfs employee.json

[root@foo2 device-report]# ls

b.txt department.json employee.json test.sql

[root@foo2 device-report]# ll

总用量 16

-rw-r--r-- 1 hdfs hdfs 22 8月 14 10:45 b.txt

-rw-r--r-- 1 hdfs hdfs 100 8月 17 16:50 department.json

-rw-r--r-- 1 hdfs hdfs 474 8月 17 16:53 employee.json [root@foo2 device-report]# su hdfs

[hdfs@foo2 device-report]$ clear

[hdfs@foo2 device-report]$ ls

b.txt test.sql

[hdfs@foo2 device-report]$ cd /var/lib/hadoop-h

hadoop-hdfs/ hadoop-httpfs/

[hdfs@foo2 device-report]$ cd /var/lib/hadoop-hdfs/device-report/

[hdfs@foo2 device-report]$ ls

b.txt department.json employee.json person.json test.sql

[hdfs@foo2 device-report]$ hadoop fs -put department.json /testdata

[hdfs@foo2 device-report]$ hadoop fs -put employee.json /testdata

[hdfs@foo2 device-report]$ hadoop fs -ls /testdata

Found 3 items

-rw-r--r-- 2 hdfs supergroup 100 2018-08-17 16:54 /testdata/department.json

-rw-r--r-- 2 hdfs supergroup 474 2018-08-17 16:55 /testdata/employee.json

-rw-r--r-- 2 hdfs supergroup 71 2018-08-17 16:39 /testdata/person.json

查看内容

[hdfs@foo2 device-report]$ hadoop fs -cat hdfs://192.168.0.106:8020/testdata/department.json

{"id":1,"name":"Tech Department"}

{"id":2,"name":"Fina Department"}

{"id":3,"name":"HR Department"}

[hdfs@foo2 device-report]$ hadoop fs -cat hdfs://192.168.0.106:8020/testdata/employee.json

{"name":"zhangsan","age":26,"depId":1,"gender":"male","salary":20000}

{"name":"lisi","age":36,"depId":2,"gender":"female","salary":8500}

{"name":"wangwu","age":23,"depId":1,"gender":"male","salary":5000}

{"name":"zhaoliu","age":25,"depId":3,"gender":"male","salary":7000}

{"name":"marry","age":19,"depId":2,"gender":"female","salary":6600}

{"name":"Tom","age":36,"depId":1,"gender":"female","salary":5000}

{"name":"kitty","age":43,"depId":2,"gender":"female","salary":6000}

-rw-r--r-- 1 hdfs hdfs 237 8月 14 16:49 test.sql

[root@foo2 device-report]# mv department.json /var/lib/hadoop-hdfs/device-report/

[root@foo2 device-report]# mv employee.json /var/lib/hadoop-hdfs/device-report/

1). 加载数据

scala> val emp = spark.read.json("hdfs://192.168.0.106:8020/testdata/employee.json")

emp: org.apache.spark.sql.DataFrame = [age: bigint, depId: bigint ... 3 more fields]

scala> val dep = spark.read.json("hdfs://192.168.0.106:8020/testdata/department.json")

dep: org.apache.spark.sql.DataFrame = [id: bigint, name: string]

变成视图：

scala> emp.createOrReplaceTempView("employee")

scala> dep.createOrReplaceTempView("department")

2). 用算子操作

# 注意：两个表的字段的连接条件，需要使用三个等号

emp.join(dep,$"id" === $"depId").groupBy(dep("name"),emp("gender")).agg(avg(emp("salary")),avg(emp("age"))).show()

结果：

+---------------+------+-----------------+------------------+

+---------------+------+-----------------+------------------+

|Tech Department| male| 12500.0| 24.5|

|Fina Department|female|7033.333333333333|32.666666666666664|

|Tech Department|female| 5000.0| 36.0|

| HR Department| male| 7000.0| 25.0|

+---------------+------+-----------------+------------------+

3). 用SQL操作

scala> spark.sql("select department.name,avg(employee.salary),avg(employee.age) from employee left join department on employee.depId=department.id group by department.name,employee.gender").show()

结果：

+-----------------+---------------------+----------------------+

| name| avg(salary)| avg(age)|

+-----------------+---------------------+----------------------+

|Tech Department | 12500.0| 24.5|

|Fina Department |7033.333333333333|32.666666666666664|

|Tech Department | 5000.0| 36.0|

| HR Department | 7000.0| 25.0|

+-----------------+---------------------+----------------------+

2、3结果都是一样一样的。

Spark SQL例子的更多相关文章

Spark源码系列（九）Spark SQL初体验之解析过程详解
好久没更新博客了,之前学了一些R语言和机器学习的内容,做了一些笔记,之后也会放到博客上面来给大家共享.一个月前就打算更新Spark Sql的内容了,因为一些别的事情耽误了,今天就简单写点,Spark1 ...
Spark1.0新特性-->Spark SQL
Spark1.0出来了,变化还是挺大的,文档比以前齐全了,RDD支持的操作比以前多了一些,Spark on yarn功能我居然跑通了.但是最最重要的就是多了一个Spark SQL的功能,它能对RDD进 ...
Spark SQL概念学习系列之Spark SQL 优化策略（五）
查询优化是传统数据库中最为重要的一环,这项技术在传统数据库中已经很成熟.除了查询优化, Spark SQL 在存储上也进行了优化,从以下几点查看 Spark SQL 的一些优化策略. (1)内存列式存 ...
Spark SQL 用户自定义函数UDF、用户自定义聚合函数UDAF 教程（Java踩坑教学版）
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...
8.Spark SQL
Spark SQL 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性分布式数据集 ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
Spark sql ---JSON
介绍Spark SQL的JSON支持,这是我们在Databricks中开发的一个功能,可以在Spark中更容易查询和创建JSON数据.随着网络和移动应用程序的普及,JSON已经成为Web服务API以及 ...
Spark官方1 ---------Spark SQL和DataFrame指南（1.5.0）
概述 Spark SQL是用于结构化数据处理的Spark模块.它提供了一个称为DataFrames的编程抽象,也可以作为分布式SQL查询引擎. Spark SQL也可用于从现有的Hive安装中读取数据 ...
深入研究Spark SQL的Catalyst优化器（原创翻译）
Spark SQL是Spark最新和技术最为复杂的组件之一.它支持SQL查询和新的DataFrame API.Spark SQL的核心是Catalyst优化器,它以一种新颖的方式利用高级编程语言特性( ...

随机推荐

Xcode 和 VisualC++输出流的差别的理解
将这样一段程序分别运行与Visual Studio 和 Xcode上边的结果: #include <iostream> using namespace std; int main() { ...
N阶乘尾部的0个数
N阶乘尾部的0个数描述设计一个算法,计算出n阶乘中尾部零的个数思路: 1.1 * 2 * 3 * ... * n --> 1 * 2 * 3 * (2 * 2) * 5 * (2 * 3) ...
HDU5542 The Battle of Chibi
题意给出长度为n的序列,问这个序列中有多少个长度为m的单调递增子序列. $1\le M\le N\le 1000$ 分析用F[i,j]表示前j个数构成以Aj为结尾的数列中,长度为i的严格递增子 ...
戴尔R710服务器安装系统——配置raid
一,内存二,硬盘(分区,数据量大小)三,电源线,网络线四,raid(raid0,raid1,raid5) 从这里开始 1.进入系统时不用管,默认进入即可 2.在读完内存消息之后,开始读取磁盘消息,在出 ...
菜鸟Vue学习笔记（一）
我今年刚参加工作,作为一个后台Java开发人员,公司让我开发前端,并且使用Vue框架,我边学习边记录. Vue框架是JS的封装框架,使用了MVVM模式,即model—view—viewmodel模式, ...
day11 大纲
01 昨日内容回顾函数名的运用: 1,特殊的变量. 2,函数名可以当做变量赋值. 3,函数名可以当做容器类类型的元素. 4,函数名可以当做函数的参数. 5,函数名可以当做函数的返回值. 函数的运用: ...
repository test has failed 错误
这里给自己一个警告,当我在idea中准备clone gitlab上的项目时,这个链接竟然一直在报:repository test has failed 错误这个是gitlab上复制下来的原链接:ht ...
maya中MFnMesh.h使用说明的翻译
由于最近要修改一个maya中的deformer脚本,于是开始系统学习openMaya的一些知识,当然少不了得把一堆头文件说明看一遍.首先把MFnMesh.h这个文件翻译一下吧,不废话,上译文: 首先M ...
hadoop 安装过程记录
1)首先配置好了四个linux虚拟机 root pwd:z****l*3 关闭了防火墙开通了 sshd服务开通了 ftp服务配置了 jdk 1.8 配置好了互信 (之前配置的过程忘了!--检查了 ...
bzoj5047: 空间传送装置
Description 太空中一共有n座星球,它们之间可以通过空间传送装置进行转移.空间传送装置分为m种,第i种装置可以用4个参数a_i,b_i,c_i,d_i来描述.因为时空抖动的问题,在非整数时 ...

Spark SQL例子

Spark SQL例子的更多相关文章

随机推荐

热门专题