020 Spark中分组后的TopN，以及Spark的优化（重点）

一：准备

1.源数据

2.上传数据

二：TopN程序编码

1.程序

 package com.ibeifeng.bigdata.spark.core

 import java.util.concurrent.ThreadLocalRandom

 import org.apache.spark.{SparkConf, SparkContext}

 /**

   * 分组TopN：按照第一个字段分组；同一组中，按照第二个字段进行排序；每一组中，获取出现最多的前K个数据。

   * Created by ibf on 01/15.

   */

 object GroupedTopN {

   def main(args: Array[String]): Unit = {

     val conf = new SparkConf()

       .setMaster("local[*]")

       .setAppName("grouped-topn")

       //.set("spark.eventLog.enabled", "true")

       //.set("spark.eventLog.dir", "hdfs://hadoop-senior01:8020/spark-history")

     val sc = SparkContext.getOrCreate(conf)

     // ==========具体代码逻辑========================

     // 原始数据存储的路径, 需要自己上传

     val path = "/user/beifeng/spark/groupedtopk/groupsort.txt"

     val K = 3

     // 构建rdd

     val rdd = sc.textFile(path)

     // rdd操作

     val word2CountRDD = rdd

       .filter((line: String) => {

         // 过滤空字符串，所以非空的返回true

         !line.isEmpty

       })

       .map(line => {

         // 按照空格分隔字段

         val arr = line.split(" ")

         // 将数据转换为二元组

         (arr(0), arr(1).toInt)

       })

     // 如果一个RDD被多次使用，该RDD需要进行缓存操作

     word2CountRDD.cache()

     // 直接使用groupByKey函数进行统计，这种方式存在OOM的情况

     /*

     val resultRDD = word2CountRDD

       .groupByKey() // 按照第一个字段进行分组

       .map(tuple => {

       // 同一组的数据中获取前K个元素

       // 获取对应分组

       val word = tuple._1

       // 获取前K个元素(最大的k个元素), list默认排序是升序, 所以采用takeRight从后往前获取K个元素(此时的K个元素就是最大的K个元素); 最后对K个元素进行反转，最终结果元素是从大到小排序的

       val topk = tuple._2.toList.sorted.takeRight(K).reverse

       // 返回结果

       (word, topk)

     })

     */

     /*

     * groupByKey存在OOM异常

     * 解决方案：采用两阶段聚合操作

     * 两阶段聚合可以解决的一些常见：

     *   1. 聚合操作中存储的OOM异常

     *   2. 聚合操作中存在的数据倾斜问题

     * 聚合操作：分区、排序、reduceByKey.....

     * */

     val random = ThreadLocalRandom.current()

     val resultRDD2 = word2CountRDD

       .map(tuple => {

         // 第一阶段第一步：在key前加一个随机数

         ((random.nextInt(100), tuple._1), tuple._2)

       })

       .groupByKey() // 第一阶段的第二步：按照修改后的key进行聚合操作

       .flatMap(tuple => {

       // 第一阶段的第三步：对一组value进行聚合操作

       // 获取对应分组

       val word = tuple._1._2

       // 获取前K个

       val topk = tuple._2.toList.sorted.takeRight(K).reverse

       // 返回结果

       topk.map(count => (word, count))

     })

       .groupByKey() // 第二阶段第一步：按照原本的key进行聚合操作

       .map(tuple => {

       // 第二阶段第二步: 获取前k个元素

       val word = tuple._1

       val topk = tuple._2.toList.sorted.takeRight(K).reverse

       // 返回结果

       (word, topk)

     })

     // 结果输出

     resultRDD2.foreach(println)

     /*

     resultRDD2.foreachPartition(iter => {

       // foreachPartition该函数常用于将RDD的数据输出到第三方的数据存储系统中，比如：redis、mongoDB

       /*

       * 1. 创建连接

       * 2. 对iter进行迭代，进行数据输出

       * 3. 关闭连接

       * */

       iter.foreach(println)

     })

     */

     // 如果RDD有cache，需要去除cache

     word2CountRDD.unpersist()

     // ==========具体代码逻辑========================

     sc.stop()

   }

 }

2.结果

3.注意点

　　Spark中不支持二次排序，如果想实现二次排序，需要根据业务的执行逻辑使用两阶段聚合来进行操作

二：优化

1.两阶段聚合

020 Spark中分组后的TopN，以及Spark的优化（重点）的更多相关文章

如何在spark中读写cassandra数据 ---- 分布式计算框架spark学习之六
由于预处理的数据都存储在cassandra里面,所以想要用spark进行数据分析的话,需要读取cassandra数据,并把分析结果也一并存回到cassandra:因此需要研究一下spark如何读写ca ...
Spark中的编程模型
1. Spark中的基本概念 Application:基于Spark的用户程序,包含了一个driver program和集群中多个executor. Driver Program:运行Applicat ...
Spark中的Phoenix Dynamic Columns
代码及使用示例:https://github.com/wlu-mstr/spark-phoenix-dynamic phoenix dynamic columns HBase的数据模型是动态的,很多系 ...
MySQL 排名、分组后组内排名、取各组的前几名及排名后更新插入数据表中
一.排名 /*普通排名:从1开始,顺序往下排*/ AS rank ) r ORDER BY score; /*并列排名:相同的值是相同的排名*/ SELECT cs.* , CASE WHEN @p= ...
Spark：求出分组内的TopN
制作测试数据源: c1 85 c2 77 c3 88 c1 22 c1 66 c3 95 c3 54 c2 91 c2 66 c1 54 c1 65 c2 41 c4 65 spark scala实现 ...
sql-实现select取行号、分组后在分组内排序、每个分组中的前n条数据
表结构设计: 实现select取行号 sql局部变量的2种方式 set @name='cm3333f'; select @id:=1; 区别:set 可以用=号赋值,而select 不行,必须使用:= ...
[MySQL]MySQL数据库中如何查询分组后每组中的最后一条记录？
原文地址:https://codedefault.com/s/how-can-i-retrieve-the-last-record-in-each-group-mysql 问题描述比如,在MySQL ...
SQL获取分组后取某字段最大一条记录（求每个类别中最大的值的列表）
获取分组后取某字段最大一条记录方法一:(效率最高) select * from test as a where typeindex = (select max(b.typeindex) from t ...
024 关于spark中日志分析案例
1.四个需求需求一:求contentsize的平均值.最小值.最大值需求二:请各个不同返回值的出现的数据 ===> wordCount程序需求三:获取访问次数超过N次的IP地址需求四:获 ...

随机推荐

第一节简单的jsp实例
1.打开Eclipse,依次点击“File” .“New” .“Other” ,选择生成动态Web项目. 2.输入项目名字,点击Finish 生成项目结构如下: 3.在WebContent目录上,单击 ...
edge box
先介绍一下matlab与c混合编程主要步骤: 使用c语言编写函数利用mexFunction()函数创建C与matlab接口从Matlab中编译函数 # include <mex.h> ...
Linux - 文件操作
touch file # 创建空白文件 rm -rf 目录名 # 不提示删除非空目录(-r:递归删除 -f强制) dos2unix # windows文本转linux文本 unix2dos # lin ...
node.js 找不到 xxx 模块解决办法
node.js找不到xxx 这个模块的解决方法. 按顺序来. 1.检查一下是否拼写错误. 2.这个模块是自己写的,是的话.检查一下路径是否正确. 3.如果是导入的模块.用 npm list这个命令输出 ...
[C++]C++与C头文件辨析(比较)
C++/C头文件辨析 C++标准库 C标准库 C++标准模板库 ios vector iomanip deque sstream list fstream map set ...
python安装curses库
windows系统在安装curses库时,如果直接使用conda或者pip安装,总是失败,到如下网址直接下载.whl文件,然后再用pip安装即可. https://www.lfd.uci.edu/~g ...
ICPC World Finals 2019 题解
[A]Azulejos 题意简述: 有两排瓷砖,每排都有 $n$ 个,每个瓷砖有高度 $h_i$ 和价格 $p_i$ 两种属性. 你需要分别重新排列这两排瓷砖,使得同一排的瓷砖满足价格不降 ...
CentOS如何设置终端显示字符界面区域的大小
红框内的文字本应该在上一行后方,调了stty也不行, stty size的值变化,但显示还是没变化后来参考http://www.jb51.net/os/RedHat/522217.html 修改 / ...
openwrt 添加 802.1x客户端njit
1.修改feed的配置文件 feeds.conf.default 添加下面两句: src-svn njit https://github.com/liuqun/openwrt-clients/trun ...
解决Javascript中$(window).resize()多次执行
有些时候,我们需要在浏览器窗口发生变化的时候,动态的执行一些操作,比如做自适应页面时的适配.这个时候,我们需要在窗口拖动的时候去执行代码.但是有些时候,执行的操作比较复杂,我们只希望在窗口拖动完毕之后 ...

020 Spark中分组后的TopN，以及Spark的优化（重点）

020 Spark中分组后的TopN，以及Spark的优化（重点）的更多相关文章

随机推荐

热门专题