Spark如何解决常见的Top N问题

需求

假设我们有一张各个产品线URL的访问记录表，该表仅仅有两个字段：product、url，我们需要统计各个产品线下访问次数前10的URL是哪些？

解决方案

（1）模拟访问记录数据

模拟数据记录共有1000条，其中包括10个产品线：product1、product2、…、product10，100个URL：url1、url2、…、url100，为了简化生成数据的过程，产品线和URL均使用了随机数。一条记录为一个字符串，产品线与URL使用空格进行分隔。模拟数据存储在一个名为“data”的列表中，通过parallelize的方式形成一个RDD：table，再使用inferSchema的方式注册为一张临时表“product_url”。

表“product_url”的示例数据如下：

（2）统计各个产品线下各个URL的访问次数

这个逻辑使用Spark SQL即可以实现，示例数据如下：

可以看出，数据多出了一个字段access，用于表示某产品线下某个URL的访问次数。

此外，如果我们有一个数据类型为Row的变量row，可以通过row.product、row.url、row.access或者row[0]、row[1]、row[2]访问product、url、access对应的数据。

（3）“分区排序取值”

我们的统计需求有一个明显的分界线：产品线，Top N的处理逻辑可以转变为：

a. 根据分界线做分区，即每一个产品线的记录进入同一个分区；

b. 每一个分区（产品线）内根据URL的访问次数（access）排序（降序）；

c. 每一个分区（产品线）内取前N条数据即可。

a、b实际就是一个“分区排序”的过程，Spark RDD也为“分区排序”提供了非常方便的API：repartitionAndSortWithinPartitions，但是该函数需要传入的数据类型要求为（key, value），因此我们需要对（2）中的数据做一下简单的处理：

其实就是将数据类型Row映射为元组（Row, None），示例数据如下：

此外repartitionAndSortWithinPartitions还需要两个函数：partitionFunc、keyFunc，这两个函数都需要接收一个参数，该参数为（key, value）中的key。

partitionFunc用于根据（key, value）中的key如何选取分区，返回值要求为整型，数值即为分区号，即0表示分区0，1表示分区1，…。

这里key的数据类型即为Row。

因为我们模拟了10个产品线，每一个产品线的数据需要被划分到同一个分区内，因此我们也需要10个分区（分区序号为0—9），根据产品线划分分区的规则为：产品线product1的分区为0，产品线product2的分区为1，…，产品线product10的分区为9。其中key[0]为产品线名称，key[0][7]为产品线名称中的随机数，将key[0][7]转换为整数并减一即可得到对应的分区号。

keyFunc用于根据（key, value）中的key如何排序，“分区内排序”时即根据该函数的返回值进行排序。

其中，key[2]为访问次数access，我们就是需要在某个分区（产品线）内根据URL的访问次数做排序。

函数partitionFunc、keyFunc准备好之后，我们可以开始调用repartitionAndSortWithinPartitions：

需要注意的是，numPartitions值为10，该值取决于分区（产品线）的个数；ascending值为False，该值表示分区内排序时使用降序。

“分区排序”之后我们即可以开始“取值”，取值的过程比较简单：在每个分区内即前N（这里假设为10，即top 10）个值，将这些值“汇总”之后即可得出各个产品线下URL访问次数的Top 10。

考虑到我们需要“汇总”的需求，因此不能使用foreachPartition，需要通过mapPartitions实现，它需要一个函数：f，函数f的参数为一个“迭代器”，通过这个“迭代器”可以遍历分区内的所有数据。

从上面的代码可以看出，我们就是通过“迭代器”iter获取分区内的前10条数据（如果分区内的数据条数大于或等于10的话）。

“汇总”（collect）结果：

rows中保存着各个产品线下URL访问次数的Top 10记录。

（4）结果处理

计算完成之后，我们可以对结果进行一些处理，如：根据产品线、URL根据字典序排序并输出，代码如下：

示例数据：

总结

使用Spark解决Top N问题时，只需要经过“划分分区、分区内排序、分区内取值”三个过程即可完成。

Spark如何解决常见的Top N问题的更多相关文章

Spark程序运行常见错误解决方法以及优化
转载自:http://bigdata.51cto.com/art/201704/536499.htm Spark程序运行常见错误解决方法以及优化 task倾斜原因比较多,网络io,cpu,mem都有可 ...
如何解决海量数据的Top K问题
1．问题描述在大规模数据处理中,常遇到的一类问题是,在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常称为“top K”问题,如:在搜索引擎中,统计搜索最热门 ...
【Spark篇】---Spark故障解决（troubleshooting）
一.前述本文总结了常用的Spark的troubleshooting. 二.具体 1.shuffle file cannot find:磁盘小文件找不到. 1) connection timeout ...
Spark 学习笔记 —— 常见API
一.RDD 的创建 1)通过 RDD 的集合数据结构,创建 RDD sc.parallelize(List(1,2,3),2) 其中第二个参数代表的是整个数据,分为 2 个 partition,默认情 ...
【spark】示例：求Top值
我们有这样的两个文件第一个数字为行号,后边为三列数据.我们来求第二列数据的Top(N) (1)我们先读取数据,创建Rdd (2)过滤数据,取第二列数据. 我们用filter()来过滤数据 line. ...
Git 项目上传至github入门实战并解决常见错误
1.Git GUI 首先,在push到github的项目必须先建立版本(即creat repository的名字一样),一般是先pull下来,再push(为了防止有其他人提交了代码,而你却不知道,造 ...
iOS runtime实用篇解决常见Crash
程序崩溃经历其实在很早之前就想写这篇文章了,一直拖到现在. 程序崩溃经历1 平时开发测试的时候好好的,结果上线几天发现有崩溃的问题,其实责任大部分在我身上. 我的责任: 过分信赖文档,没进行容错处理 ...
【spark】dataframe常见操作
spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能.当然主要对类SQL的支持. 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选.合并,重新入库. 首先加载数据集 ...
CM5.x配置spark错误解决
通过cloudera manager 5.x添加spark服务,在创建服务过程中,发现spark服务创建失败,可以通过控制台错误输出看到如下日志信息: + perl -pi -e 's#{{CMF_C ...

随机推荐

navicat 数据库管理工具快捷键
最近在使用navicat 管理数据库中,因为经常要写一些sql的,但是每次都要鼠标点击运行,感觉很不爽,于是找到navicat(以下) 快捷键(最常用的): ctrl + q 打开查询窗口 ctrl ...
TransactionScope简单用法
记录TransactionScope简单用法,示例如下: void Test() { using (TransactionScope scope = new TransactionScope()) { ...
Lucene技术杂谈
Lucene教程 1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品.因此它并不像www.baidu.com 或者google Desktop那么 ...
asp.net - GridView根据linkButton值不同跳转不同页面
一,当前页面中,前台界面的主要代码: <asp:TemplateField HeaderText="姓名"> <ItemTemplate> <!--根 ...
iOS多Targets管理
序言: 个人不善于写东西,就直奔主题了. 其实今天会注意到多targets这个东西,是因为在学习一个第三方库FBMemoryProfiler的时候,用到了,所以就搜索了一些相关资料,就在这里记录一下. ...
iOS，长按图片保存实现方法，轻松搞定！
1.添加手势识别: UITapGestureRecognizer *tap = [[UITapGestureRecognizer alloc]initWithTarget:self action:@s ...
请描述一下 cookies，sessionStorage 和 localStorage 的区别？
http://handyxuefeng.blog.163.com/blog/static/454521722013111714040259/ http://book.51cto.com/art/201 ...
javascript 用函数实现“继承”
一.知识储备: 1.枚举属性名称的函数: (1)for...in:可以在循环体中遍历对象中所有可枚举的属性(包括自有属性和继承属性) (2)Object.keys():返回数组(可枚举的自有属性) ( ...
Windowsphone 之xml序列化和反序列化的应用(WebService解析返回的数据DataSet )
关于Xml的序列化和反序列化: 可以看这篇文章,http://www.cnblogs.com/Windows-phone/p/3243575.html WebService解析返回的数据DataSet ...
WPF RadioButton & CheckBox Style
<Style TargetType="CheckBox"> <Setter Property="Template"> <Sette ...

Spark如何解决常见的Top N问题

Spark如何解决常见的Top N问题的更多相关文章

随机推荐

热门专题