我的Spark SQL单元测试实践
最近加入一个Spark项目,作为临时的开发人员协助进行开发工作。该项目中不存在测试的概念,开发人员按需求进行编码工作后,直接向生产系统部署,再由需求的提出者在生产系统检验程序运行结果的正确性。在这种原始的工作方式下,产品经理和开发人员总是在生产系统验证自己的需求、代码。可以想见,各种直接交给用户的错误导致了一系列的事故和不信任。为了处理各类线上问题,大家都疲于奔命。当工作进行到后期,每一个相关人都已经意气消沉,常常对工作避之不及。
为了改善局面,我尝试了重构部分代码,将连篇的SQL分散到不同的方法里,并对单个方法构建单元测试。目的是,在编码完成后,首先在本地执行单元测试,以实现:
- 部署到生产系统的代码中无SQL语法错误。
- 将已出现的bug写入测试用例,避免反复出现相同的bug。
- 提前发现一些错误,减少影响到后续环节的问题。
- 通过自动化减少开发和程序问题处理的总时间花费。
- 通过流程和结果的改善,减少开发人员的思维负担,增加与其他相关人的互信。
本文将介绍我的Spark单元测试实践,供大家参考、批评。
本文中的Spark API是PySpark,测试框架为pytest。
对于希望将本文当作单元测试教程使用的读者,本文会假定读者已经准备好了开发和测试所需要的环境。如果没有也没有关系,文末的参考部分会包含一些配置环境相关的链接。
本文链接:https://www.cnblogs.com/hhelibeb/p/10534862.html
原创内容,转载请注明
概念
定义
单元测试是一种测试方法,它的对象是单个程序单元/组件,目的是验证软件的每个组件都符合设计要求。
单元是软件中最小的可测试部分。它通常包含一些输入和单一的输出。
本文中的单元就是python函数(function)。
单元测试通常是程序开发人员的工作。
原则
为了实现单元测试,函数最好符合一个条件,
- 对于相同的输入,函数总有相同的输出。
这要求函数的输出结果不依赖内外部状态。
它的输出结果的确定不应该依赖输入参数外的任何内容,例如,不可以因为本地测试环境中没有相应的数据库就产生“连接数据库异常”导致无法返回结果。如果是类方法的话,也不可以依据一个可能被改变的类属性来决定输出。
同时,函数内部不能存在“副作用”。它不应该改变除了返回结果以外的任何内容,例如,不可以改变全局可变状态。
满足以上条件的函数,可以被称为“纯函数”。
代码实践
下面是数据和程序部分。
数据
假设我们的服务对象是一家水果运销公司,公司在不同城市设有仓库,现有三张表,其中inventory包含水果的总库存数量信息,inventory_ratio包含水果在不同城市的应有比例,
目标是根据总库存数量和比例算出水果在各地的库存,写入到第三张表inventory_city中。三张表的列如下,
1. inventory. Columns: “item”, “qty”.
2. inventory_ratio. Columns: “item”, “city”, “ratio”.
3. inventory_city. Columns: “item”, “city”, “qty”.
第一版代码
用最直接的方式实现这一功能,代码将是,
from pyspark.sql import SparkSession if __name__ == "__main__": spark = SparkSession.builder.appName('TestAPP').enableHiveSupport().getOrCreate() result = spark.sql('''select t1.item, t2.city,
case when t2.ratio is not null then t1.qty * t2.ratio
else t1.qty
end as qty
from v_inventory as t1
left join v_ratio as t2 on t1.item = t2.item ''') result.write.csv(path="somepath/inventory_city", mode="overwrite")
这段代码可以实现计算各城市库存的需求,但测试起来会不太容易。特别是如果未来我们还要在这个程序中增加其他逻辑的话,不同的逻辑混杂在一起后,测试和修改都会变得麻烦。
所以,在下一步,我们要将部分代码封装到一个函数中。
有副作用的函数
创建一个名为get_inventory_city的函数,将代码包含在内,
from pyspark.sql import SparkSession def get_inventory_city(): spark = SparkSession.builder.appName('TestAPP').enableHiveSupport().getOrCreate()
result = spark.sql('''select t1.item, t2.city,
case when t2.ratio is not null then t1.qty * t2.ratio
else t1.qty
end as qty
from v_inventory as t1
left join v_ratio as t2 on t1.item = t2.item ''')
result.write.csv(path="somepath/inventory_city", mode="overwrite") if __name__ == "__main__": get_inventory_city()
显然,这是一个不太易于测试的函数,因为它,
- 没有输入输出参数,不能直接根据给定数据检验运行结果。
- 包含对数据库的读/写,这意味着它要依赖外部数据库。
- 包含对spark session的获取/创建,这和计算库存的逻辑也毫无关系。
我们把这些函数中的多余的东西称为副作用。副作用和函数的核心逻辑纠缠在一起,使单元测试变得困难,也不利于代码的模块化。
我们必须另外管理副作用,只在函数内部保留纯逻辑。
无副作用的函数
按照上文中提到的原则,重新设计函数,可以得到,
from pyspark.sql import SparkSession, DataFrame def get_inventory_city(spark: SparkSession, inventory: DataFrame, ratio: DataFrame): inventory.createOrReplaceTempView('v_inventory')
ratio.createOrReplaceTempView('v_ratio') result = spark.sql('''select t1.item, t2.city,
case when t2.ratio is not null then t1.qty * t2.ratio
else t1.qty
end as qty
from v_inventory as t1
left join v_ratio as t2 on t1.item = t2.item ''') return result if __name__ == "__main__": spark = SparkSession.builder.appName('TestAPP').enableHiveSupport().getOrCreate() inventory = spark.sql('''select * from inventory''')
ratio = spark.sql('''select * from inventory_ratio''') result = get_inventory_city(spark, inventory, ratio) result.write.csv(path="somepath/inventory_city", mode="overwrite")
修改后的函数get_inventory_city有3个输入参数和1个返回参数,函数内部已经不再包含对spark session和数据库表的处理,这意味着对于确定的输入值,它总会输出不变的结果。
这比之前的设计更加理想,因为函数只包含纯逻辑,所以调用者使用它时不会再受到副作用的干扰,这使得函数的可测试性和可组合性得到了提高。
测试代码
创建一个test_data目录,将csv格式的测试数据保存到里面。测试数据的来源可以是手工模拟制作,也可以是生产环境导出。
然后创建测试文件,添加代码,
from inventory import get_inventory_city
from pyspark.sql import SparkSession spark = SparkSession.builder.appName('TestAPP').enableHiveSupport().getOrCreate() def test_get_inventory_city(): #导入测试数据
inventory = spark.read.format("csv").option("header", "true").load("./test_data/inventory.csv")
ratio = spark.read.format("csv").option("header", "true").load("./test_data/inventory_ratio.csv") #执行函数
result = get_inventory_city(spark, inventory, ratio) #验证拆分后的总数量等于拆分前的总数量
result.createOrReplaceTempView('v_result')
inventory.createOrReplaceTempView('v_inventory') qty_before_split = spark.sql('''select sum(qty) as qty from v_inventory''')
qty_after_split = spark.sql('''select sum(qty) as qty from v_result''') assert qty_before_split.take(1)[0]['qty'] == qty_after_split.take(1)[0]['qty']
执行测试,可以看到以下输出内容
============================= test session starts =============================
platform win32 -- Python 3.6.8, pytest-4.3.1, py-1.8.0, pluggy-0.9.0
rootdir: C:\Users\zhaozhe42\PycharmProjects\spark_unit\unit, inifile:collected 1 item
test_get_inventory_city.py .2019-03-21 14:16:24 WARN ObjectStore:568 - Failed to get database global_temp, returning NoSuchObjectException
[100%]
========================= 1 passed in 18.06 seconds ==========================
这样一个单元测试例子就完成了。
相比把程序放到服务器测试,单元测试的运行速度更快,开发者不用再担心测试会对生产作业和用户造成影响,也可以更早发现在编码期间犯下的错误。它也可以成为自动化测试的基础。
待解决的问题
目前我已经可以在项目中构建初步的单元测试,但依然面临着一些问题。
运行时间
上面这个简单的测试示例在我的联想T470笔记本上需要花费18.06秒执行完成,而实际项目中的程序的复杂度要更高,执行时间也更长。执行时间过长一件糟糕的事情,因为单元测试的执行花费越大,就会越被开发者拒斥。面对显示器等待单元测试执行完成的时间是难捱的。虽然相比于把程序丢到生产系统中执行,这种单元测试模式已经可以节约不少时间,但还不够好。
接下来可能会尝试的解决办法:提升电脑配置/改变测试数据的导入方式。
有效范围
在生产实践中构建纯函数是一件不太容易的事情,它对开发者的设计和编码能力有相当的要求。
单元测试虽然能帮助发现一些问题和确定问题代码范围,但它似乎并不能揭示错误的原因。只靠单元测试,不能完全证明代码的正确性。
笔者水平有限,目前写出的代码中仍有很多单元测试力所不能及的地方。可能需要在实践中对它们进行改进,或者引入其它测试手段作为补充。
参考
一些参考内容。
配置
Getting Started with PySpark on Windows
阅读
我的Spark SQL单元测试实践的更多相关文章
- 实验5 Spark SQL编程初级实践
今天做实验[Spark SQL 编程初级实践],虽然网上有答案,但都是用scala语言写的,于是我用java语言重写实现一下. 1 .Spark SQL 基本操作将下列 JSON 格式数据复制到 Li ...
- 【原创 Hadoop&Spark 动手实践 9】Spark SQL 程序设计基础与动手实践(上)
[原创 Hadoop&Spark 动手实践 9]SparkSQL程序设计基础与动手实践(上) 目标: 1. 理解Spark SQL最基础的原理 2. 可以使用Spark SQL完成一些简单的数 ...
- 【原创 Hadoop&Spark 动手实践 10】Spark SQL 程序设计基础与动手实践(下)
[原创 Hadoop&Spark 动手实践 10]Spark SQL 程序设计基础与动手实践(下) 目标: 1. 深入理解Spark SQL 程序设计的原理 2. 通过简单的命令来验证Spar ...
- 实验 5 Spark SQL 编程初级实践
实验 5 Spark SQL 编程初级实践 参考厦门大学林子雨 1. Spark SQL 基本操作 将下列 json 数据复制到你的 ubuntu 系统/usr/local/spark 下,并 ...
- 实验5 Spark SQL 编程初级实践
源文件内容如下(包含 id,name,age),将数据复制保存到 ubuntu 系统/usr/local/spark 下, 命名为 employee.txt,实现从 RDD 转换得到 DataFram ...
- Spark SQL 编程初级实践
一.实验目的 (1) 通过实验掌握 Spark SQL 的基本编程方法: (2) 熟悉 RDD 到 DataFrame 的转化方法: (3) 熟悉利用 Spark ...
- Spark SQL在100TB上的自适应执行实践(转载)
Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇 ...
- 第五周周二练习:实验 5 Spark SQL 编程初级实践
1.题目: 源码: import java.util.Properties import org.apache.spark.sql.types._ import org.apache.spark.sq ...
- spark实验(五)--Spark SQL 编程初级实践(1)
一.实验目的 (1)通过实验掌握 Spark SQL 的基本编程方法: (2)熟悉 RDD 到 DataFrame 的转化方法: (3)熟悉利用 Spark SQL 管理来自不同数据源的数据. 二.实 ...
随机推荐
- C++ 动态生成对象
1.啰嗦一下 说起C++,很多人都觉着难学,其实我也是这么觉着的,在这个移动端火到爆的时代,我都想改行了,移动端做东西那都是现有的第三方库,拿来就可以用,而且稳定性好,开发速度快,而且最关键的是出东西 ...
- SpringBoot+Elasticsearch
1. 前言 1.1. 集成方式 Spring Boot中集成Elasticsearch有4种方式: REST Client Jest Spring Data Spring Data Elastic ...
- 并发编程(十一)—— Java 线程池 实现原理与源码深度解析(一)
史上最清晰的线程池源码分析 鼎鼎大名的线程池.不需要多说!!!!! 这篇博客深入分析 Java 中线程池的实现. 总览 下图是 java 线程池几个相关类的继承结构: 先简单说说这个继承结构,E ...
- 如何为ASP.NET Core的强类型配置对象添加验证
原文: Adding validation to strongly typed configuration objects in ASP.NET Core 作者: Andrew Lock 译文: La ...
- Ajax上传图片以及上传之前先预览
手头上有几个小项目用到了easyUI,一开始决定使用easyUI就注定了项目整体上前后端分离,基本上所有的请求都采用Ajax来完成.在文件上传的时候用到了Ajax上传文件,以及图片在上传之前的预览效果 ...
- C#2.0 迭代器
迭代器 迭代器模式是和为模式的一种范例,我们访问数据序列中所有的元素,不用关心序列是什么类型.从数据管道中数据经过一系列不同的转换或过滤后从管道的另一端出来. 像数组.集合等已经内置了迭代器,我们可以 ...
- 微服务SpringCloud—Config Server对称加密
配置内容的加解密在Git仓库中明文存储配置属性的.很多场景下,对于某些敏感的配置内容(例如数据库账号.密码等),应当加密存储. Config对称加解密1.安装JCE默认情况下我们的JRE自带了JCE, ...
- linux下(fdisk,gdisk,parted)三种分区工具比较
1 2种分区结构简介 MBR分区 硬盘主引导记录MBR由4个部分组成 主引导程序(偏移地址0000H--0088H),它负责从活动分区中装载,并运行系统引导程序. 出错信息数据区,偏移地址0089H- ...
- 图像处理基础(2):自适应中值滤波器(基于OpenCV实现)
本文主要介绍了自适应的中值滤波器,并基于OpenCV实现了该滤波器,并且将自适应的中值滤波器和常规的中值滤波器对不同概率的椒盐噪声的过滤效果进行了对比.最后,对中值滤波器的优缺点了进行了总结. 空间滤 ...
- 利用sklearn对MNIST手写数据集开始一个简单的二分类判别器项目(在这个过程中学习关于模型性能的评价指标,如accuracy,precision,recall,混淆矩阵)
.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px so ...