Spark QuantileDiscretizer 分位数离散器

1、概念

接收具有连续特征的列，并输出具有合并分类特征的列。按分位数，对给出的数据列进行离散化分箱处理。
和Bucketizer（分箱处理）一样也是：将连续数值特征转换为离散类别特征。实际上Class QuantileDiscretizer extends Bucketizer
 
    参数1：不同的是这里不再自己定义splits（分类标准），而是定义分几箱(段）就可以了。QuantileDiscretizer自己调用函数计算分位数，并完成离散化。
    参数2： 另外一个参数是精度，如果设置为0，则计算最精确的分位数，这是一个高时间代价的操作。
    另外上下边界将设置为正负无穷，覆盖所有实数范围。

分位数（Quantile），亦称分位点，是指将一个随机变量的概率分布范围分为几个等份的数值点，常用的有中位数（即二分位数）、四分位数、百分位数等。

2、code

package com.home.spark.ml
 
import org.apache.spark.SparkConf
import org.apache.spark.ml.feature.QuantileDiscretizer
import org.apache.spark.sql.SparkSession
 
/**
  * @Description: 分位数离散器
  * QuantileDiscretizer接收具有连续特征的列，并输出具有合并分类特征的列。按分位数，对给出的数据列进行离散化分箱处理。
  * 箱数由numBuckets参数设置。
  * 例如，如果输入的不同值太少而无法创建足够的不同分位数，则所使用的存储桶的数量可能会小于该值。
  *
  * NaN值：在QuantileDiscretizer拟合过程中，将从柱中除去NaN值。这将产生一个Bucketizer模型进行预测。
  * 在转换期间，Bucketizer在数据集中找到NaN值时将引发错误，但是用户也可以通过设置handleInvalid选择保留还是删除数据集中的NaN值。
  * 如果用户选择保留NaN值，则将对其进行特殊处理并将其放入自己的存储桶中，
  * 例如，如果使用4个存储桶，则将非NaN数据放入存储桶[0-3]中，但NaN将被存储放在一个特殊的桶中[4]。
  *
  * 算法：分箱范围是使用近似算法选择的（有关详细说明，请参见aboutQuantile的文档）。
  * 可以使用relativeError参数控制近似精度。设置为零时，将计算精确的分位数（注意：计算精确的分位数是一项昂贵的操作）。
  * 分箱的上下边界将是-Infinity和+ Infinity，覆盖所有实数值。
  *
  **/
object Ex_QuantileDiscretizer {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf(true).setMaster("local[2]").setAppName("spark ml")
    val spark = SparkSession.builder().config(conf).getOrCreate()
 
    val data = Array((0, 18.0), (1, 19.0), (2, 8.0), (3, 5.0), (4, 2.2))
    val df = spark.createDataFrame(data).toDF("id", "hour")
 
    val discretizer = new QuantileDiscretizer()
      .setInputCol("hour")
      .setOutputCol("result")
      .setNumBuckets(3)
 
    val result = discretizer.fit(df).transform(df)
    result.show(false)
 
    spark.stop()
  }
}
 
+---+----+------+
|id |hour|result|
+---+----+------+
|0  |18.0|2.0   |
|1  |19.0|2.0   |
|2  |8.0 |1.0   |
|3  |5.0 |1.0   |
|4  |2.2 |0.0   |
+---+----+------+

Spark QuantileDiscretizer 分位数离散器的更多相关文章

Spark集群管理器介绍
Spark可以运行在各种集群管理器上,并通过集群管理器访问集群中的其他机器.Spark主要有三种集群管理器,如果只是想让spark运行起来,可以采用spark自带的独立集群管理器,采用独立部署的模式: ...
spark的task调度器(FAIR公平调度算法)
FAIR 调度策略的树结构如下图所示: FAIR 调度策略内存结构 FAIR 模式中有一个 rootPool 和多个子 Pool, 各个子 Pool 中存储着所有待分配的 TaskSetMagage ...
Volcano成Spark默认batch调度器
摘要:对于Spark用户而言,借助Volcano提供的批量调度.细粒度资源管理等功能,可以更便捷的从Hadoop迁移到Kubernetes,同时大幅提升大规模数据分析业务的性能. 2022年6月16日 ...
Alink漫谈(十九) ：源码解析之分位点离散化Quantile
Alink漫谈(十九) :源码解析之分位点离散化Quantile 目录 Alink漫谈(十九) :源码解析之分位点离散化Quantile 0x00 摘要 0x01 背景概念 1.1 离散化 1 ...
Apache Spark 2.2中基于成本的优化器（CBO）（转载）
Apache Spark 2.2最近引入了高级的基于成本的优化器框架用于收集并均衡不同的列数据的统计工作 (例如., 基(cardinality).唯一值的数量.空值.最大最小值.平均/最大长度,等等 ...
spark内存管理器--MemoryManager源码解析
MemoryManager内存管理器内存管理器可以说是spark内核中最重要的基础模块之一,shuffle时的排序,rdd缓存,展开内存,广播变量,Task运行结果的存储等等,凡是需要使用内存的地方 ...
Spark Extracting,transforming,selecting features
Spark(3) - Extracting, transforming, selecting features 官方文档链接:https://spark.apache.org/docs/2.2.0/m ...
大数据开发实战：Spark Streaming流计算开发
1.背景介绍 Storm以及离线数据平台的MapReduce和Hive构成了Hadoop生态对实时和离线数据处理的一套完整处理解决方案.除了此套解决方案之外,还有一种非常流行的而且完整的离线和实时数 ...
Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...

随机推荐

Python过滤掉numpy.array中非nan数据实例
代码需要先导入pandas arr的数据类型为一维的np.array import pandas as pd arr[~pd.isnull(arr)] 补充知识:python numpy.mean( ...
Flutter.. 两个点语法含义
在Flutter编程中,会经常用到".."的语法糖,如下 state.clone() ..splashImg = action.img ..famousSentence = act ...
ubuntu 12.04无盘工作站
注释:该篇博文是借鉴下列文章加上自己实践总结得来: a. http://forum.ubuntu.org.cn/viewtopic.php?f=77&t=117754 b. http://bl ...
laravel 迁移文件中修改含有enum字段的表报错解决方法
解决方法: 在迁移文件中up方法最上方加上下面这一行代码即可: Schema::getConnection()->getDoctrineSchemaManager()->getDataba ...
windows 下安装YApi及集成Idea的YapiUpload
一准备工具 Mongodb Node和npm 二文档地址 https://hellosean1025.github.io/yapi/ 三安装步骤 1.安装Mongodb,请参考 2.安装Node,请参 ...
MacOS下如何设置hosts？
hosts文件是什么? hosts文件是一个系统文件,其作用就是将一些常用的网址域名与其对应的IP地址建立一个关联“数据库”.当用户在浏览器中输入一个需要登录的网址时,系统会首先自动从Hosts文件中 ...
6-Pandas之缺失值处理
一.了解缺失值通常使用 NA('not available')来代指缺失值在Pandas的数据结构中,缺失值使用 NaN('Not a Number')进行标识除了汇总统计方法,还可以使用isn ...
PHP 中的字符串变量
PHP 字符串变量字符串变量用于存储并处理文本. PHP 中的字符串变量字符串变量用于包含有字符的值. 在创建字符串之后,我们就可以对它进行操作了.您可以直接在函数中使用字符串,或者把它存储在变量 ...
Python os.minor() 方法
概述 os.minor() 方法用于从原始的设备号中提取设备minor号码 (使用stat中的st_dev或者st_rdev field ).高佣联盟 www.cgewang.com 语法 minor ...
PHP decoct() 函数
实例把十进制转换为八进制: <?phpecho decoct("30") . "<br>";echo decoct("10&quo ...

Spark QuantileDiscretizer 分位数离散器

Spark QuantileDiscretizer 分位数离散器的更多相关文章

随机推荐

热门专题