Spark3学习【基于Java】3. Spark-Sql常用API
学习一门开源技术一般有两种入门方法,一种是去看官网文档,比如Getting Started - Spark 3.2.0 Documentation (apache.org),另一种是去看官网的例子,也就是%SPARK_HOME%\examples下面的代码。打开IDEA,选择File-Open...
跟前面文章中方法一样导入jars目录到classpath。
Spark解析json字符串
第一个例子是读取并解析Json。这个例子的结果让我有些震惊,先上代码:
- public
static
void main(String[] args) { - SparkSession session = SparkSession.builder().master("local[1]").appName("SparkSqlApp").getOrCreate();
- Dataset<Row> json = session.read().json("spark-core/src/main/resources/people.json");
- json.show();
- }
让我惊讶的是文件的内容。例子里面的文件是三个大括号并列,文件扩展名是.json,由于没有中括号,所以格式是错的:
- {"name":"Michael"}
- {"name":"Andy", "age":30}
- {"name":"Justin", "age":19}
但是spark解析出来了:
于是我把文件改成下面这样向看下结果
- [{"name":"Michael"},
- {"name":"Andy", "age":30},
- {"name":"Justin", "age":19}
- ]
你猜输出是什么?
显然,spark没有解析出第一行,而且把第4行也解析了。这也说明了为什么样例的文件可以解析:首先跟文件扩展名是没啥关系的,另外spark是按行解析,只要考虑这一行是否符合解析要求就可以,行末可以有逗号。所以把文件改成下面也是可以的
- {"name":"Michael"},
- {"name":"Andy", "age":30},..
- {"name":"Justin", "age":19}
第一行后面有逗号,第二行后面还有两个点。
SQL 查询
在之前的例子中,读取文件返回的是Dataset<String>,因为之前确实是读取的文件内容。现在使用json()方法返回的是DataFrame,数据是经过spark处理过的。
DataFrame提供了一些好用的方法,用的最多的就是show()。它主要用于调试,可以把数据以表格形式打印。spark确实给DataFrame生成了表结构,可以通过printSchema()方法查看
不但有字段名,还有字段类型,还有是否可空(好像都能空)。
DF还提供了类似于sql查询的方法,比如select()/groupBy(),和where类似的filter()等:
这里我们首先给年龄字段+1,并通过别名(相等于SQL里的AS)让他覆盖之前的字段,然后查询比19大的记录,最后根据年龄分组汇总。
如果我们把新字段不覆盖原字段呢?你猜是执行报错还是啥结果?
That's all?当然不是,Spark提供了更强大的SQL操作:视图
View
视图分临时视图和全局视图。临时视图时会话级别的,会话结束了视图就没了;全局视图时应用级别的,只要Spark应用不停,视图就可以跨会话使用。
可见临时视图和全局视图可以叫一样的名字,它们的内容互不干扰。因为要访问全局视图需要通过global_temp库。不信你可以这样试一下
- Dataset<Row> group = json.select(col("name"), col("age").plus(1).alias("age1"))
- .filter(col("age").gt(19))
- .groupBy("age1")
- .count();
- group.createOrReplaceTempView("people");
- json.createOrReplaceGlobalTempView("people");
- Dataset<Row> temp = session.sql("select * from people");
- Dataset<Row> global = session.sql("select * from global_temp.people");
- Dataset<Row> global1 = session.newSession().sql("select * from global_temp.people");
- temp.show();
- global.show();
- global1.show();
Dataset
我们已经跟Dataset打过不少交道了,这里再稍晚多说一点点。实际上如果你是自己摸索而不是完全看我写的,下面这些内容估计都已经探索出来了。
1 转换自DF
DF是无类型的,Dataset是有类型的。如果要把无类型的转成有类型的,就需要提供一个类型定义,就像mysql表和Java的PO一样。
先来定义Java类:
- public
class Person implements Serializable { - private String name;
- private
long age; - public String getName() {
- return name;
- }
- public
void setName(String name) { - this.name = name;
- }
- public
long getAge() { - return age;
- }
- public
void setAge(long age) { - this.age = age;
- }
- }
这个类必须实现序列化接口,原因在前面也说过了。
接下来把读入json的DataFrame转成Dataset:
之前都是使用Encoders内置的编码器,这里通过bean()方法生成我们自定义类的编码器,然后传给DF的as()方法就转成了Dataset。
既然转成了强类型的Dataset,那能把每一个对象拿出来吗?给Person类增加toString方法,然后遍历Dataset:
结果报错了竟然:已经生成了集合,却不能访问元素?
报错原因很简单:我们类中的age是原始数据类型,但是实际数据有一个null。把long age改成Long age即可:
但是为什么会这样呢?!~我猜是因为as方法用的编码器(序列化工具)和foreach用到的解码器不匹配,spark的编码器不要求数据符合Java编译规则。
来自Java集合
目前我们掌握了通过读取文件(textFile(path))、转化其他Dataset(map/flatMap)和转换DF来生成Dataset,如果已经有一堆数据了,也可以直接创建。
SparkSession重载了大量根据数据集生成Dataset和DataFrame的方法,可以自由选择:
所以我们创建一个List来生成,只能是List,不能是Collection
神奇的是原本应该一样的代码,执行的时候有一个报错。这个算Java实现的BUG吧,原因参考Java中普通lambda表达式和方法引用本质上有什么区别? - RednaxelaFX的回答 - 知乎
https://www.zhihu.com/question/51491241/answer/126232275
转自RDD
RDD 在Java环境下叫JavaRDD。它也是数据集,可以和Dataset/DataFrame互转。这里不说了,有兴趣可以探索。
Spark3学习【基于Java】3. Spark-Sql常用API的更多相关文章
- Spark SQL 编程API入门系列之SparkSQL的依赖
不多说,直接上干货! 不带Hive支持 <dependency> <groupId>org.apache.spark</groupId> <artifactI ...
- Java之String类常用API
目录 Java之String类常用API char chatAt(int index) int length() char[] toCharArray() String(char value[]) S ...
- oracle学习笔记(九) SQL常用函数说明以及使用
SQL常用函数说明以及使用 以下补充以下常用的函数,更多的请看oracle函数API文档 to_char to_char(8.58,'9.99') to_char(8.50,'9.00') to_ch ...
- spark sql 常用语句
在spark dataFrame数据结构里面使用sql语句查询数据 (因为是RDD和dataFrame数据是只读的,所以不能做修改,删除操作.) 首先将文本数据转换为DataFrame数据格式 有两种 ...
- Spark SQL 编程API入门系列之SparkSQL数据源
不多说,直接上干货! SparkSQL数据源:从各种数据源创建DataFrame 因为 spark sql,dataframe,datasets 都是共用 spark sql 这个库的,三者共享同样的 ...
- Spark SQL 编程API入门系列之Spark SQL支持的API
不多说,直接上干货! Spark SQL支持的API SQL DataFrame(推荐方式,也能执行SQL) Dataset(还在发展) SQL SQL 支持basic SQL syntax/Hive ...
- Spark SQL 编程API入门系列之SparkSQL的入口
不多说,直接上干货! SparkSQL的入口:SQLContext SQLContext是SparkSQL的入口 val sc: SparkContext val sqlContext = new o ...
- Spark SQL 编程API入门系列之Spark SQL的作用与使用方式
不多说,直接上干货! Spark程序中使用SparkSQL 轻松读取数据并使用SQL 查询,同时还能把这一过程和普通的Python/Java/Scala 程序代码结合在一起. CLI---Spark ...
- Java(22)常用API一
1 API 1.1 API概述 什么是API API (Application Programming Interface) :应用程序编程接口 java中的API 指的就是 JDK 中提供的 ...
随机推荐
- NGINX杂谈——flask_limiter的IP获取(怎么拿到真实的客户端IP)
本篇博客将 flask_limiter 作为切入点,来记录一下自己对 remote_addr 和 proxy_add_x_forwarded_for 两个变量.X-Real-IP 和 X-Forwar ...
- 洛谷 P2680 [NOIP2015 提高组] 运输计划
链接:P2680 题意: 在树上把一条边边权变为0使得最长给定路径最短 分析: 最大值最小可以想到二分答案,对于每一个mid,寻找所有大于mid的路径,再寻找是否存在一条边使得删去它后大于mid的路径 ...
- ASP的调试技术解答
一. 调试 ASP.NET 应用程序时出现"未将项目配置为进行调试"的错误信息 症状 当您在 Visual Studio .NET 中调试 ASP.NET 应用程序时,可能会出现下 ...
- hdu 3199 Hamming Problem(构造?枚举?)
题意: For each three prime numbers p1, p2 and p3, let's define Hamming sequence Hi(p1, p2, p3), i=1, . ...
- 【动图解释】关系数据库de关系代数小记
本文章在 Github 撰写,同时在 我的博客 进行了发布. 最近学数据库概论学到了关系数据库的关系代数了.哎嘛,真的把我整晕了,尤其是关系代数的使用,很容易让人被蒙在鼓里. 对我来说槽点最大的莫过于 ...
- springboot如何通过apollo动态去注册dubbo服务
参考相关文章: apollo官方文档: https://dubbo.apache.org/zh/docs/v2.7/user/configuration/configuration-load-pro ...
- Swift-Framework(一)访问资源文件
摘要 Framework 就是在 APP 应用中的一种封装功能的表现形式,虽然不能独立运行,但是也可以在它里面存放和访问图片.语音等资源文件,可算是麻雀虽小,五脏俱全. 毕竟不是 APP 工程,所以 ...
- .net core api 请求实现接口幂等性
简单实现接口幂等性,根据参数的hascode实现: 参数介绍 WaitMillisecond : 请求等待毫秒数 CacheMillisecond:请求结果缓存毫秒数 参数具体使用场景 WaitMi ...
- 1个月连载30个设计模式真实案例(附源码),挑战年薪60W不是梦
本文所有内容均节选自<设计模式就该这样学> 本文自2012年10月29日起持续连载,请大家持续关注.... 序言 Design Patterns: Elements of Reusable ...
- 问题 N: 非洲小孩
题目描述 家住非洲的小孩,都很黑.为什么呢? 第一,他们地处热带,太阳辐射严重. 第二,他们不经常洗澡.(常年缺水,怎么洗澡.) 现在,在一个非洲部落里,他们只有一个地方洗澡,并且,洗澡时间很短,瞬间 ...