Spark 分组取Top N运算

大数据处理中，对数据分组后，取TopN是非常常见的运算。

下面我们以一个例子来展示spark如何进行分组取Top的运算。

1、RDD方法分组取TopN

from pyspark import SparkContext

sc = SparkContext()

准备数据，把数据转换为rdd格式

data_list = [

 (0, "cat26", 130.9), (0, "cat13", 122.1), (0, "cat95", 119.6), (0, "cat105", 11.3),

 (1, "cat67", 128.5), (1, "cat4", 126.8), (1, "cat13", 112.6), (1, "cat23", 15.3),

 (2, "cat56", 139.6), (2, "cat40", 129.7), (2, "cat187", 127.9), (2, "cat68", 19.8),

 (3, "cat8", 135.6)

]

data = sc.parallelize(data_list)

data.collect()

[(0, 'cat26', 130.9),

 (0, 'cat13', 122.1),

 (0, 'cat95', 119.6),

 (0, 'cat105', 11.3),

 (1, 'cat67', 128.5),

 (1, 'cat4', 126.8),

 (1, 'cat13', 112.6),

 (1, 'cat23', 15.3),

 (2, 'cat56', 139.6),

 (2, 'cat40', 129.7),

 (2, 'cat187', 127.9),

 (2, 'cat68', 19.8),

 (3, 'cat8', 135.6)]

对数据使用groupBy操作来分组。可以看到分组后数据为(key, list_data)

d1 = data.groupBy(lambda x:x[0])

temp = d1.collect()

print(list(temp[0][1]))

print(temp)

[(0, 'cat26', 130.9), (0, 'cat13', 122.1), (0, 'cat95', 119.6), (0, 'cat105', 11.3)]

[(0, <pyspark.resultiterable.ResultIterable object at 0x0000000007D2C710>), (1, <pyspark.resultiterable.ResultIterable object at 0x0000000007D2C780>), (2, <pyspark.resultiterable.ResultIterable object at 0x0000000007D2C898>), (3, <pyspark.resultiterable.ResultIterable object at 0x0000000007D2C9B0>)]

使用mapValues方法对数据进行排序。

可以根据需要来取Top N 数据。

这里取Top 3 的数据

d2 = d1.mapValues(lambda x: sorted(x, key=lambda y:y[2])[:3])

d2.collect()

[(0, [(0, 'cat105', 11.3), (0, 'cat95', 119.6), (0, 'cat13', 122.1)]),

 (1, [(1, 'cat23', 15.3), (1, 'cat13', 112.6), (1, 'cat4', 126.8)]),

 (2, [(2, 'cat68', 19.8), (2, 'cat187', 127.9), (2, 'cat40', 129.7)]),

 (3, [(3, 'cat8', 135.6)])]

使用flatmap方法把结果拉平，变成一个list返回。

d3 = d2.flatMap(lambda x:[i for i in x[1]])

d3.collect()

[(0, 'cat105', 11.3),

 (0, 'cat95', 119.6),

 (0, 'cat13', 122.1),

 (1, 'cat23', 15.3),

 (1, 'cat13', 112.6),

 (1, 'cat4', 126.8),

 (2, 'cat68', 19.8),

 (2, 'cat187', 127.9),

 (2, 'cat40', 129.7),

 (3, 'cat8', 135.6)]

整体代码

from pyspark import SparkContext

# sc = SparkContext()

topN = 3

data_list = [

 (0, "cat26", 130.9), (0, "cat13", 122.1), (0, "cat95", 119.6), (0, "cat105", 11.3),

 (1, "cat67", 128.5), (1, "cat4", 126.8), (1, "cat13", 112.6), (1, "cat23", 15.3),

 (2, "cat56", 139.6), (2, "cat40", 129.7), (2, "cat187", 127.9), (2, "cat68", 19.8),

 (3, "cat8", 135.6)

]

data = sc.parallelize(data_list)

d1 = data.groupBy(lambda x:x[0])

d2 = d1.mapValues(lambda x: sorted(x, key=lambda y:y[2])[:topN])

d3 = d2.flatMap(lambda x:[i for i in x[1]])

d3.collect()

[(0, 'cat105', 11.3),

 (0, 'cat95', 119.6),

 (0, 'cat13', 122.1),

 (1, 'cat23', 15.3),

 (1, 'cat13', 112.6),

 (1, 'cat4', 126.8),

 (2, 'cat68', 19.8),

 (2, 'cat187', 127.9),

 (2, 'cat40', 129.7),

 (3, 'cat8', 135.6)]

2、Dataframe方法分组取TopN

dataframe数据格式分组取top N，简单的方法是使用Window方法

from pyspark.sql import SparkSession

from pyspark.sql import functions as func

from pyspark.sql import Window

spark = SparkSession.builder.getOrCreate()

data_list = [

 (0, "cat26", 130.9), (0, "cat13", 122.1), (0, "cat95", 119.6), (0, "cat105", 11.3),

 (1, "cat67", 128.5), (1, "cat4", 126.8), (1, "cat13", 112.6), (1, "cat23", 15.3),

 (2, "cat56", 139.6), (2, "cat40", 129.7), (2, "cat187", 127.9), (2, "cat68", 19.8),

 (3, "cat8", 135.6)

]

根据数据创建dataframe，并给数据列命名

df = spark.createDataFrame(data_list, ["Hour", "Category", "TotalValue"])

df.show()

+----+--------+----------+

|Hour|Category|TotalValue|

+----+--------+----------+

| 0| cat26| 130.9|

| 0| cat13| 122.1|

| 0| cat95| 119.6|

| 0| cat105| 11.3|

| 1| cat67| 128.5|

| 1| cat4| 126.8|

| 1| cat13| 112.6|

| 1| cat23| 15.3|

| 2| cat56| 139.6|

| 2| cat40| 129.7|

| 2| cat187| 127.9|

| 2| cat68| 19.8|

| 3| cat8| 135.6|

+----+--------+----------+

使用窗口方法，分片参数为分组的key，
orderBy的参数为排序的key，这里使用desc降序排列。
withColumn(colName, col)，为df添加一列，数据为对window函数生成的数据编号
where方法取rn列值小于3的数据，即取top3数据

w = Window.partitionBy(df.Hour).orderBy(df.TotalValue.desc())

top3 = df.withColumn('rn', func.row_number().over(w)).where('rn <=3')

top3.show()

+----+--------+----------+---+

|Hour|Category|TotalValue| rn|

+----+--------+----------+---+

| 0| cat26| 130.9| 1|

| 0| cat13| 122.1| 2|

| 0| cat95| 119.6| 3|

| 1| cat67| 128.5| 1|

| 1| cat4| 126.8| 2|

| 1| cat13| 112.6| 3|

| 3| cat8| 135.6| 1|

| 2| cat56| 139.6| 1|

| 2| cat40| 129.7| 2|

| 2| cat187| 127.9| 3|

+----+--------+----------+---+

### 代码汇总

from pyspark.sql import SparkSession

from pyspark.sql import functions as func

from pyspark.sql import Window

spark = SparkSession.builder.getOrCreate()

data_list = [

 (0, "cat26", 130.9), (0, "cat13", 122.1), (0, "cat95", 119.6), (0, "cat105", 11.3),

 (1, "cat67", 128.5), (1, "cat4", 126.8), (1, "cat13", 112.6), (1, "cat23", 15.3),

 (2, "cat56", 139.6), (2, "cat40", 129.7), (2, "cat187", 127.9), (2, "cat68", 19.8),

 (3, "cat8", 135.6)

]

df = spark.createDataFrame(data_list, ["Hour", "Category", "TotalValue"])

w = Window.partitionBy(df.Hour).orderBy(df.TotalValue.desc())

top3 = df.withColumn('rn', func.row_number().over(w)).where('rn <=3')

top3.show()

Spark 两种方法计算分组取Top N的更多相关文章

面试题：两种方法计算n！
直接上代码package com.face.test; public class Test { /** * 面试题:递归方法计算n! */ @org.junit.Test public void di ...
JAVA 集合 List 分组的两种方法
CSDN日报20170219--<程序员的沟通之痛> [技术直播]揭开人工智能神秘的面纱程序员1月书讯云端应用征文大赛,秀绝招,赢无人机! JAVA 集合 List 分组的两种方法 2 ...
计算理论：NFA转DFA的两种方法
本文将以两种方法实现NFA转DFA,并利用C语言实现. 方法二已利用HNU OJ系统验证,方法一迷之WA,但思路应该是对的,自试方案,测试均通过. (主要是思路,AC均浮云,大概又有什么奇怪的Case ...
Spark Streaming中空batches处理的两种方法（转）
原文链接:Spark Streaming中空batches处理的两种方法 Spark Streaming是近实时(near real time)的小批处理系统.对给定的时间间隔(interval),S ...
【转】oracle 中随机取一条记录的两种方法
oracle 中随机取一条记录的两种方法 V_COUNT INT:=0; V_NUM INT :=0; 1:TBL_MYTABLE 表中要有一个值连续且唯一的列FID BEGIN SELECT COU ...
选中没有选中的复选框，匹配含有某个字符串的正则，json取值的两种方法，把变量定义在外面跟里面的区别
一.筛选没有选中的复选框:not("input:checked") 二.匹配有VARCHAR的字符串:".*VARCHAR.*?" 三.json取值的两种方法 ...
用Python计算幂的两种方法，非递归和递归法
用Python计算幂的两种方法: #coding:utf-8 #计算幂的两种方法.py #1.常规方法利用函数 #不使用递归计算幂的方法 """ def power(x, ...
取xml文件转成List<T>对象的两种方法
读取xml文件转成List<T>对象的两种方法(附源码) 读取xml文件转成List<T>对象的两种方法(附源码) 读取xml文件,是项目中经常要用到的,所以就总结一下,最 ...
2014 Super Training #4 G What day is that day? --两种方法
原题: ZOJ 3785 http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=3785 题意:当天是星期六,问经过1^1+2^2+ ...

随机推荐

java实现第七届蓝桥杯打印数字
打印数字打印数字小明写了一个有趣的程序,给定一串数字. 它可以输出这串数字拼出放大的自己的样子. 比如"2016"会输出为: 00000 1 6666 2 0 0 1 1 6 ...
java实现第七届蓝桥杯平方末尾
平方末尾能够表示为某个整数的平方的数字称为"平方数" 比如,25,64 虽然无法立即说出某个数是平方数,但经常可以断定某个数不是平方数. 因为平方数的末位只可能是:[0, 1, ...
记一次discuz修改首页图片路径问题
1.找到图片路径拼装文件首先打开根目录下的template目录找到首页文件打开后找到图片列表的拼装位置 // 链接示例: <!--{eval $imagelistkey = getforum ...
MongoDB 4.X CRUD基本操作
本文总结了MongoDB 4.X在mongo shell客户端涉及的对文档一些基本的增删改查操作,即CRUD操作.主要结合了自己平时使用MongoDB的操作命令,更详细的命令可以参考官方文档: htt ...
linux系统判断内存是否达到瓶颈的小技巧
1.linux下最常用的系统状态监控工具top 工具,可以使用top -c 来进行查看当前内存的占用情况 free 为内存的剩余状态,当前为3.8G的空闲内存,总的物理内存是8G,按键 shift+m ...
深入理解JVM（③）判断对象是否还健在？
前言因为Java对象主要存放在Java堆里,所以垃圾收集器(Garbage Collection)在对Java堆进行回收前,第一件事情就是要确定这些对象之中哪些还"存活"着,哪些 ...
WPF样式学习第一天
因为上班的公司要我用wpf写软件,刚毕业出来,学校也没教过wpf,只会winform,再加上wpf用winform的框架写法也能实现很多需求,但是就不能体现wpf的优点了,今天就先来学wpf的样式,因 ...
.NET 技术栈思维导图
背景介绍根据网上招聘网站的一些.NET技能需求,画了一个图,便于在自修和学习的过程当中有一个方向. 技能栈 Web front-end o 框架技术 ▣ Vue ▣ Bootstrap ▣ LayU ...
Dedecms升级php版本{dede:field.body/}不解析,文章内容不显示
Dedecms升级php7后发布文章后,发现前端显示的文章内容都是空白,只能显示标题.关键词.描述等. 第一种方法: 把{dede:field.body /}删除,使用下面的sql 标签代码替换: ...
Ubuntu18.04下使用Hexo框架搭建个人博客
一.安装node.js 说明:安装node.js的原因:Hexo框架是基于node.js. 1.推荐使用nvm安装速度快,也可自行百度其它方法. wget -qO- https://raw.githu ...