Spark SQL 抽样函数 ——TABLESAMPLE 的坑点

最近需要实现一段 Spark SQL 逻辑，对数据集进行抽样指定的行数。

由于数据集较大，刚开始的逻辑是，取窗口函数随机排序后 row_number 的前 n 行。但运行速度较慢，所以想起了 TABLESAMLE 函数，支持直接取 Rows，尝试后发现速度特别快，基本上几秒内就完成对亿级数据的采样。所以好奇就去查看文档和代码逻辑。

The TABLESAMPLE statement is used to sample the table. It supports the following sampling methods:

TABLESAMPLE(x ROWS): Sample the table down to the given number of rows.

TABLESAMPLE(x PERCENT): Sample the table down to the given percentage. Note that percentages are defined as a number between 0 and 100.

TABLESAMPLE(BUCKET x OUT OF y): Sample the table down to a x out of y fraction.

Note: TABLESAMPLE returns the approximate number of rows or fraction requested.

文档中没有对实现逻辑有过多的说明，所以去代码中找问题。

源码中，匹配 SampleByRowsContext 时，调用的方法是 Limit(expression(ctx.expression), query)，也就是说和 limit rows 是一个逻辑。

而 SampleByPercentileContext 实现的才是随机采样。

所以，如果对抽样的随机性有要求，还是老老实实用 SampleByPercentileContext，或者窗口函数。

附相关代码：

  /**

   * Add a [[Sample]] to a logical plan.

   *

   * This currently supports the following sampling methods:

   * - TABLESAMPLE(x ROWS): Sample the table down to the given number of rows.

   * - TABLESAMPLE(x PERCENT) [REPEATABLE (y)]: Sample the table down to the given percentage with

   * seed 'y'. Note that percentages are defined as a number between 0 and 100.

   * - TABLESAMPLE(BUCKET x OUT OF y) [REPEATABLE (z)]: Sample the table down to a 'x' divided by

   * 'y' fraction with seed 'z'.

   */

  private def withSample(ctx: SampleContext, query: LogicalPlan): LogicalPlan = withOrigin(ctx) {

    // Create a sampled plan if we need one.

    def sample(fraction: Double, seed: Long): Sample = {

      // The range of fraction accepted by Sample is [0, 1]. Because Hive's block sampling

      // function takes X PERCENT as the input and the range of X is [0, 100], we need to

      // adjust the fraction.

      val eps = RandomSampler.roundingEpsilon

      validate(fraction >= 0.0 - eps && fraction <= 1.0 + eps,

        s"Sampling fraction ($fraction) must be on interval [0, 1]",

        ctx)

      Sample(0.0, fraction, withReplacement = false, seed, query)

    }

    if (ctx.sampleMethod() == null) {

      throw QueryParsingErrors.emptyInputForTableSampleError(ctx)

    }

    val seed = if (ctx.seed != null) {

      ctx.seed.getText.toLong

    } else {

      (math.random() * 1000).toLong

    }

    ctx.sampleMethod() match {

      case ctx: SampleByRowsContext =>

        Limit(expression(ctx.expression), query)

      case ctx: SampleByPercentileContext =>

        val fraction = ctx.percentage.getText.toDouble

        val sign = if (ctx.negativeSign == null) 1 else -1

        sample(sign * fraction / 100.0d, seed)

      case ctx: SampleByBytesContext =>

        val bytesStr = ctx.bytes.getText

        if (bytesStr.matches("[0-9]+[bBkKmMgG]")) {

          throw QueryParsingErrors.tableSampleByBytesUnsupportedError("byteLengthLiteral", ctx)

        } else {

          throw QueryParsingErrors.invalidByteLengthLiteralError(bytesStr, ctx)

        }

      case ctx: SampleByBucketContext if ctx.ON() != null =>

        if (ctx.identifier != null) {

          throw QueryParsingErrors.tableSampleByBytesUnsupportedError(

            "BUCKET x OUT OF y ON colname", ctx)

        } else {

          throw QueryParsingErrors.tableSampleByBytesUnsupportedError(

            "BUCKET x OUT OF y ON function", ctx)

        }

      case ctx: SampleByBucketContext =>

        sample(ctx.numerator.getText.toDouble / ctx.denominator.getText.toDouble, seed)

    }

  }

Spark SQL 抽样函数 ——TABLESAMPLE 的坑点的更多相关文章

Spark SQL 自定义函数类型
Spark SQL 自定义函数类型一.spark读取数据二.自定义函数结构三.附上长长的各种pom 一.spark读取数据前段时间一直在研究GeoMesa下的Spark JTS,Spark J ...
Spark SQL 用户自定义函数UDF、用户自定义聚合函数UDAF 教程（Java踩坑教学版）
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...
详解Spark sql用户自定义函数:UDF与UDAF
UDAF = USER DEFINED AGGREGATION FUNCTION Spark sql提供了丰富的内置函数供猿友们使用,辣为何还要用户自定义函数呢?实际的业务场景可能很复杂,内置函数ho ...
Spark学习之路（十一）—— Spark SQL 聚合函数 Aggregations
一.简单聚合 1.1 数据准备 // 需要导入spark sql内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSess ...
Spark 系列（十一）—— Spark SQL 聚合函数 Aggregations
一.简单聚合 1.1 数据准备 // 需要导入 spark sql 内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSe ...
小白学习Spark系列四：RDD踩坑总结（scala+spark2.1 sql常用方法）
初次尝试用 Spark+scala 完成项目的重构,由于两者之前都没接触过,所以边学边用的过程大多艰难.首先面临的是如何快速上手,然后是代码调优.性能调优.本章主要记录自己在项目中遇到的问题以及解决方 ...
Spark注册UDF函数，用于DataFrame DSL or SQL
import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ object Test2 { def ...
Spark SQL 函数全集
org.apache.spark.sql.functions是一个Object,提供了约两百多个函数. 大部分函数与Hive的差不多. 除UDF函数,均可在spark-sql中直接使用. 经过impo ...
Spark SQL内置函数
Spark SQL内置函数官网API:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.fun ...
Spark Sql的UDF和UDAF函数
Spark Sql提供了丰富的内置函数供猿友们使用,辣为何还要用户自定义函数呢?实际的业务场景可能很复杂,内置函数hold不住,所以spark sql提供了可扩展的内置函数接口:哥们,你的业务太变态了 ...

随机推荐

从一线方案商的角度来看高通QCC3020芯片
写在前面的话 QCC3020的推出已经有一段时间了.在蓝牙音频的圈子里,属于家喻户晓的芯片了.再加上高通的大力宣传和一些顶尖级产品的使用,可以说,它是高通在吸收CSR的技术之后,着力推出的最具竞争 ...
python 音频通道分离的源码实现
一前记作为一个音频工程师,仅仅依靠鼠标点击,没有一些自己的小工具的话,肯定是不合格的了. 最近用到了一个音频通道分离的功能,这里就用python敲击了一下,这里做个备忘吧,给有需求的小伙伴抛砖引玉 ...
通过socket进行网络通信（服务端）
声明:此文只是为自己方便理解,做了一些具象的比喻和假设,并不符合客观事实,谨慎阅读! 在一台主机中, 两个进程想要通信可以通过一个管道(文件):一个从管道的一端写,一个从另一端读 , 然而管道是半 ...
【Jmeter】性能测试--EMQ X 压测
一.业务背景开发人员需要验证 EMQ X 性能参数,我选用了 Jmeter 进行测试,测试其连接数.发布订阅数据指标二.测试环境搭建 1. Jmeter 2. Jmeter 插件:需要自行从插件管 ...
API和String字符串介绍
API 1.如何使用Java已经写好的东西(方法,类) API(Application programming interface):应用程序编程接口简单理解:API就是别人已经写好了的东西,我们不 ...
ElasticSearch - 基础概念和映射
前言写这篇东西,是因为官方文档看着太痛苦,于是乎想用大白话来聊聊 ElasticSearc (下面都简称ES).所以下文对于 ES 一些概念的表述可能会与官方有出入,所以需要准确的表述和详细定义的, ...
window10-yarn-使用vite创建vue3项目失败-文件夹或目录不正确
前置条件 window10 本地已经安装nodejs yarn已经通过npm全局安装(npm install -g yarn) 问题 yarn脚手架方式搭建vue3项目失败(command faile ...
记录--h5端调用手机摄像头实现扫一扫功能
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助一.前言最近有遇到一个需求,在h5浏览器中实现扫码功能,其本质便是打开手机摄像头定时拍照,特此做一个记录.主要技术栈采用的是vue2,使 ...
记录--uni-app实现京东canvas拍照识图功能
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助最近公司出了一个新的功能模块(如下图),大提上可以描述为实现拍照完上传图片,拖动四方框拍照完成上传功能,大体样子如下图.但是我找遍了 dc ...
proteus的五状态显示控制器
proteus的五状态显示控制器 1.实验原理使用的核心器件还是4028,BCD译码器.将输入的四个信号接入输入端,输出信号选取0.1.2.4.8这五个输出状态驱动led显示.发光LED需要加入保护 ...

Spark SQL 抽样函数 ——TABLESAMPLE 的坑点

Spark SQL 抽样函数 ——TABLESAMPLE 的坑点的更多相关文章

随机推荐

热门专题