Spark2 Dataset之collect_set与collect_list

collect_set去除重复元素:collect_list不去除重复元素select gender, concat_ws(',', collect_set(children)), concat_ws(',', collect_list(children)) from Affairs group by gender // 创建视图 data.createOrReplaceTempView("Affairs") val df3= spark.sql("…

Spark2 DataSet 创建新行之flatMap

val dfList = List(("Hadoop", "Java,SQL,Hive,HBase,MySQL"), ("Spark", "Scala,SQL,DataSet,MLlib,GraphX")) dfList: List[(String, String)] = List((Hadoop,Java,SQL,Hive,HBase,MySQL), (Spark,Scala,SQL,DataSet,MLlib,GraphX…

Spark2 Dataset行列操作和执行计划

Dataset是一个强类型的特定领域的对象,这种对象可以函数式或者关系操作并行地转换.每个Dataset也有一个被称为一个DataFrame的类型化视图,这种DataFrame是Row类型的Dataset,即Dataset[Row] Dataset是“懒惰”的,只在执行行动操作时触发计算.本质上,数据集表示一个逻辑计划,该计划描述了产生数据所需的计算.当执行行动操作时,Spark的查询优化程序优化逻辑计划,并生成一个高效的并行和分布式物理计划. 示例数据字段解释 // affairs:一年来婚外…

Spark2 Dataset DataFrame空值null,NaN判断和处理

import org.apache.spark.sql.SparkSession import org.apache.spark.sql.Dataset import org.apache.spark.sql.Row import org.apache.spark.sql.DataFrame import org.apache.spark.sql.Column import org.apache.spark.sql.DataFrameReader import org.apache.spark.…

Spark2 Dataset分析函数--排名函数row_number,rank,dense_rank,percent_rank

select gender, age, row_number() over(partition by gender order by age) as rowNumber, rank() over(partition by gender order by age) as ranks, dense_rank() over(partition by gender order by age) as denseRank, percent_rank…

Spark2 Dataset多维度统计cube与rollup

Spark2 Dataset统计指标：mean均值，variance方差，stddev标准差，corr(Pearson相关系数)，skewness偏度，kurtosis峰度

val df4=spark.sql("SELECT mean(age),variance(age),stddev(age),corr(age,yearsmarried),skewness(age),kurtosis(age) FROM Affairs") df4.show +--------+------------------+------------------+-----------------------+-----------------+------------------…

Spark2 Dataset之视图与SQL

// 创建视图 data.createOrReplaceTempView("Affairs") val df1 = spark.sql("SELECT * FROM Affairs WHERE age BETWEEN 20 AND 25") df1: org.apache.spark.sql.DataFrame = [affairs: double, gender: string ... 7 more fields] // 子查询 val df2 = spark.s…

Spark2 Dataset聚合操作

Spark2 Dataset去重、差集、交集

import org.apache.spark.sql.functions._ // 对整个DataFrame的数据去重 data.distinct() data.dropDuplicates() // 对指定列的去重 val colArray=Array("affairs", "gender") data.dropDuplicates(colArray) //data.dropDuplicates("affairs", "gender…

Spark2 Dataset持久化存储级别StorageLevel

import org.apache.spark.storage.StorageLevel // 数据持久缓存到内存中//data.cache()data.persist() // 设置缓存级别data.persist(StorageLevel.DISK_ONLY) // 清除缓存data.unpersist//data.unpersist(blocking=true) 级别使用空间 CPU时间是否在内存中是否在磁盘上备注 MEMORY_ONLY 高低是否 MEMORY_ONL…

Spark Dataset DataFrame 操作

Spark Dataset DataFrame 操作相关博文参考 sparksql中dataframe的用法一.Spark2 Dataset DataFrame空值null,NaN判断和处理 1.1 显示前10条数据 1.2 删除所有列的空值和NaN 1.3 删除某列的空值和NaN 1.4 删除某列的非空且非NaN的低于10的 1.5 填充所有空值的列 1.6 对指定的列空值填充 1.7 查询空值列 1.8 查询非空列二.Dataset行列操作和执行计划 2.1 常用包 2.2 创建Spa…

Spark入门之DataFrame/DataSet

目录 Part I. Gentle Overview of Big Data and Spark Overview 1.基本架构 2.基本概念 3.例子(可跳过) Spark工具箱 1.Datasets: Type-Safe Structured APIs 2.Structured Streaming 3.Machine Learning and Advanced Analytics 4.Lower-Level APIs Part II. Structured APIs-DataFrames,…

Spark底层原理简化版

目录 Spark SQL/DF的执行过程集群运行部分 Aggregation Join Shuffle Tungsten 内存管理机制缓存敏感计算(Cacheaware computation) 动态代码生成(Code generation) Spark SQL/DF的执行过程将上层的SQL语句映射为底层的RDD模型. 写代码(DF/Dataset/SQL)并提交 Parser解析后得到unresolved logical plan(代码合法但未判断data是否存在.数据类型) Analy…

Spark学习之路（十一）—— Spark SQL 聚合函数 Aggregations

一.简单聚合 1.1 数据准备 // 需要导入spark sql内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSession.builder().appName("aggregations").master("local[2]").getOrCreate() val empDF = spark.read.json("/usr/file/json/emp.json")…

Spark 系列（十一）—— Spark SQL 聚合函数 Aggregations

一.简单聚合 1.1 数据准备 // 需要导入 spark sql 内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSession.builder().appName("aggregations").master("local[2]").getOrCreate() val empDF = spark.read.json("/usr/file/json/emp.json"…

入门大数据---SparkSQL常用聚合函数

一.简单聚合 1.1 数据准备 // 需要导入 spark sql 内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSession.builder().appName("aggregations").master("local[2]").getOrCreate() val empDF = spark.read.json("/usr/file/json/emp.json"…

hive中同列多行数据组合的方法以及array to string要点(行转列)

1. 同列多行数据组合成一个字段cell的方法, top N 问题的hive方案如下: hive 列转行 to json与to array list set等复杂结构,hive topN的提取的窗口统计方法 select ll, collect_list(n) , -- 将topN 转换成 List or Json with the help of collect_set(xx) collect_list(xx) collect_list(nn), collect_list(ll), coll…

Pyspark 使用 Spark Udf 的一些经验

起初开始写一些 udf 的时候感觉有一些奇怪,在 spark 的计算中,一般通过转换(Transformation) 在不触发计算(Action) 的情况下就行一些预处理.udf 就是这样一个好用的东西,他可以在我们进行 Transformation 的时候给我们带来对复杂问题的处理能力. 这里有两种最典型的方法. 应用于 spark 2.4 1. 直接在 SparkSession.sql 里面直接使用注册好的 udf,类似于这种写法 xx = SparkSession.catalog.regi…

分分钟搞懂rank() over(partition by)的使用

一.rank() over(partition by ...order by) 解释:partition by用于给结果集分组,如果没有指定那么它把整个结果集作为一个分组. 二.语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN) 解释:partition by用于给结果集分组,如果没有指定那么它把整个结果集作为一个分组. 区别:ROW_NUMBER() num均不同参考: Spark2 Dataset分析函数--排名函数…

大数据学习——hive函数

1 内置函数测试各种内置函数的快捷方法: 1.创建一个dual表 create table dual(id string); 2.load一个文件(一行,一个空格)到dual表 3.select substr('angelababy',2,3) from dual; 2 自定义函数UDF(user-defined function)和transform 自定义函数类别 UDF 作用于单个数据行,产生一个数据行作为输出.(数学函数,字符串函数) UDAF(用户定义聚集函数):接收多个输入数据行…

Hive行列转换

Hive行列转换 1.行转列 (根据主键,进行多行合并一列) 使用函数:concat_ws(‘,’,collect_set(column)) collect_list 不去重 collect_set 去重 column 的数据类型要求是 string 1.1.构建测试数据 vi row_to_col.txt a b 1 a b 2 a b 3 c d 4 c d 5 c d 6 1.2.建表 create table tmp_jia…

MaxCompute - ODPS重装上阵　第六弹 - User Defined Type

MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务. MaxCompute除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力,提高广大ODPS开发者的生产力. MaxCompute基于ODPS2.0新一代的SQL引擎,显著提升了SQL语言编译过程的易用性与语言的表达能力.我们在此推出MaxCompute(ODPS2.0)重装上阵系列文章第一弹 - 善用MaxCompute编译器的错误和警…

hive：数据库“行专列”操作---使用collect_set/collect_list/collect_all & row_number()over(partition by 分组字段 [order by 排序字段])

方案一:请参考<数据库“行专列”操作---使用row_number()over(partition by 分组字段 [order by 排序字段])>,该方案是sqlserver,oracle,mysql,hive均适用的. 在hive中的方案分为以下两种方案: 创建测试表,并插入测试数据: --hive 测试行转列 collect_set collect_list create table tommyduan_test( gridid string, height int, cell st…

collect_list/collect_set（列转行）

Hive中collect相关的函数有collect_list和collect_set. 它们都是将分组中的某列转为一个数组返回,不同的是collect_list不去重而collect_set去重. 做简单的实验加深理解,创建一张实验用表,存放用户每天点播视频的记录: 1 2 3 4 5 create table t_visit_video ( username string, video_name string ) partitioned by (day string) row…

Hive笔记之collect_list/collect_set（列转行）

Hive中collect相关的函数有collect_list和collect_set. 它们都是将分组中的某列转为一个数组返回,不同的是collect_list不去重而collect_set去重. 做简单的实验加深理解,创建一张实验用表,存放用户每天点播视频的记录: create table t_visit_video ( username string, video_name string ) partitioned by (day string) row format delimited f…

Spark2.x（六十一）：在Spark2.4 Structured Streaming中Dataset是如何执行加载数据源的？

本章主要讨论,在Spark2.4 Structured Streaming读取kafka数据源时,kafka的topic数据是如何被执行的过程进行分析. 以下边例子展开分析: SparkSession sparkSession = SparkSession.builder().getOrCreate(); Dataset<Row> sourceDataset = sparkSession.readStream().format("kafka").option("&…

Hive系统函数之collect_list和collect_set

转自:https://www.cnblogs.com/cc11001100/p/9043946.html Hive中collect相关的函数有collect_list和collect_set. 它们都是将分组中的某列转为一个数组返回,不同的是collect_list不去重而collect_set去重. 做简单的实验加深理解,创建一张实验用表,存放用户每天点播视频的记录: create table t_visit_video ( username string, video_name string…

spark2.0新特性之DataSet

1.Spark SQL,DataFrame,DataSet的错误类型检测时机 spark SQL:其类型检测与语法检测是在运行时检测的 DataFrame:在spark2.0以前的版本中,DataFrame是类型不安全的,其类型检查是在运行时才检查的,语法检查倒是在编译时检查的 DataSet:类型检测和语法检测是在编译时检测 2. DataSet的性能比RDD的性能更好,实现代码更简洁,且内存利用率更高通过统计单词的计数来举例: RDDs的实现(words的获取各自已经实现好了的) val…

spark2.0系列《一》—— RDD VS. DataFrame VS. DataSet

虽说,spark我也不陌生,之前一直用python跑的spark,基本的core和SQL操作用的也是比较熟练.但是这一切的基础都是在RDD上进行操作,即使是进行SQL操作也是将利用SpaekContext类中的textFile方法读取txt文件返回RDD对象,然后使用SQLContext实例化载利用函数createDataFrame将格式化后的数据转化为dataFrame或者利用createDataset将数据转换为dataset.真不是一般的麻烦...话不多说,比如以下python代码示例:…

【Spark2 Dataset之collect_set与collect_list】的更多相关文章