spark 分组取topn

java

 /**

  *分组取topn,有序数列去除一些项后,仍然有序,所以应当先排序后分组

  *@author Tele

  *

  */

 public class TopDemo2 {

     private static SparkConf conf = new SparkConf().setMaster("local").setAppName("topdemo2");

     private static JavaSparkContext jsc = new JavaSparkContext(conf);

     public static <U> void main(String[] args) {

         JavaRDD<String> rdd = jsc.textFile("./src/main/java/base_demo/top/score.txt");

         JavaPairRDD<Integer, String> mapToPair = rdd.mapToPair(new PairFunction<String, Integer, String>() {

             private static final long serialVersionUID = 1L;

             @Override

             public Tuple2<Integer, String> call(String t) throws Exception {

                 String[] fields = t.split(" ");

                 return new Tuple2<Integer, String>(Integer.parseInt(fields[1]), fields[0]);

             }

         });

         // 先排序

         JavaPairRDD<Integer, String> sortByKey = mapToPair.sortByKey(false);

         // 互换位置以便分组

         JavaPairRDD<String, Integer> mapToPair2 = sortByKey

                 .mapToPair(new PairFunction<Tuple2<Integer, String>, String, Integer>() {

                     private static final long serialVersionUID = 1L;

                     @Override

                     public Tuple2<String, Integer> call(Tuple2<Integer, String> t) throws Exception {

                         return new Tuple2<String, Integer>(t._2, t._1);

                     }

                 });

         // 分组

         JavaPairRDD<String, Iterable<Integer>> groupByKey2 = mapToPair2.groupByKey();

         // 取前三

         JavaPairRDD<String, Iterable<Integer>> result = groupByKey2

                 .mapToPair(new PairFunction<Tuple2<String, Iterable<Integer>>, String, Iterable<Integer>>() {

                     private static final long serialVersionUID = 1L;

                     @Override

                     public Tuple2<String, Iterable<Integer>> call(Tuple2<String, Iterable<Integer>> t)

                             throws Exception {

                         return new Tuple2<String, Iterable<Integer>>(t._1,

                                 IteratorUtils.toList(t._2.iterator()).subList(0, 3));

                     }

                 });

         result.foreach(new VoidFunction<Tuple2<String, Iterable<Integer>>>() {

             private static final long serialVersionUID = 1L;

             @Override

             public void call(Tuple2<String, Iterable<Integer>> t) throws Exception {

                 System.out.println(t._1 + t._2);

             }

         });

         jsc.close();

     }

 }

scala

 object TopDemo2 {

   def main(args: Array[String]): Unit = {

     val conf = new SparkConf().setMaster("local").setAppName("topdemo2");

     val sc = new SparkContext(conf);

     val rdd = sc.textFile("./src/main/scala/spark_core/top/score.txt", 1);

     rdd.map(lines => {

       val fields = lines.split(" ");

       (fields(1).toInt, fields(0));

     }).sortByKey(false, 1).map(t => (t._2, t._1)).groupByKey().map(t => {

       val arr = t._2;

       val score = arr.take(3);

       (t._1, score)

     }).foreach(t => println(t._1 + "---" + t._2));

   }

 }

spark 分组取topn的更多相关文章

分组取topN
假设有这样一个文件,文件内容如下 class1 class2 class1 class1 class2 class2 class1 class2 class1 class2 要求按照班级分组取出每个班 ...
mysql分组取topn
本文来自 http://www.jb51.net/article/31590.htm 有些语句sql top n 是sqlserver语法 --按某一字段分组取最大(小)值所在行的数据代码如下: ...
Spark 两种方法计算分组取Top N
Spark 分组取Top N运算大数据处理中,对数据分组后,取TopN是非常常见的运算. 下面我们以一个例子来展示spark如何进行分组取Top的运算. 1.RDD方法分组取TopN from py ...
使用dataframe解决spark TopN问题：分组、排序、取TopN和join相关问题
package com.profile.mainimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.fu ...
Hive分组取Top K数据
阿里交叉面试问到了这个题,当时感觉没有答好,主要是对Hive这块还是不熟悉,其实可以采用row_number()函数. 1.ROW_NUMBER,RANK(),DENSE_RANK() 语法格式:ro ...
sql 分组取最新的数据sqlserver巧用row_number和partition by分组取top数据
SQL Server 2005后之后,引入了row_number()函数,row_number()函数的分组排序功能使这种操作变得非常简单分组取TOP数据是T-SQL中的常用查询, 如学生信息管理系 ...
mysql单列去重复group by分组取每组前几条记录加order by排序
mysql分组取每组前几条记录(排名) 附group by与order by的研究,需要的朋友可以参考下 --按某一字段分组取最大(小)值所在行的数据复制代码代码如下: /* 数据如下: name ...
row_number和partition by分组取top数据
分组取TOP数据是T-SQL中的常用查询, 如学生信息管理系统中取出每个学科前3名的学生.这种查询在SQL Server 2005之前,写起来很繁琐,需要用到临时表关联查询才能取到.SQL Serve ...
sql分组取第一条数据
sq分组取第一条数据的一个方法: select * from ( select row_number() over(partition by ID order by ID) as rownum , * ...

随机推荐

【河南省多校脸萌第六场 A】巴什博弈？
[链接]http://acm.nyist.me/JudgeOnline/problem.php?cid=1013&pid=5 [题意] 在这里写题意 [题解] 0..a-1 YES a..a+ ...
Java Web学习总结（8）——使用Cookie进行会话管理
一.会话的概念会话可简单理解为:用户开一个浏览器,点击多个超链接,访问服务器多个web资源,然后关闭浏览器,整个过程称之为一个会话. 有状态会话:一个同学来过教室,下次再来教室,我们会知道这个同学曾 ...
Linux字符界面安装图形界面XWindow
https://jingyan.baidu.com/article/219f4bf790f4c7de442d3825.html
我的Go语言学习之旅三：Go语言中的for循环
这个但是为难我了,我一直是走在WEB前的程序猿,各种循环用起来得心应手.突然间发现到了Go这里竟然行不通了,查阅后才发现,原来Go的for是这样写的. for i:=0;i<10;i++{ fm ...
使用BeautifulSoup爬取“0daydown”站点的信息（2）——字符编码问题解决
上篇中的程序实现了抓取0daydown最新的10页信息.输出是直接输出到控制台里面.再次改进代码时我准备把它们写入到一个TXT文档中.这是问题就出来了. 最初我的代码例如以下: #-*- coding ...
nodejs+express4.0+mongodb安装方法 for Linux, Mac
废话不多说 1:下载nodejs包下载地址例如以下:http://www.nodejs.org/download/ 下载source code版本号须要解压后到其文件夹运行./configure,然 ...
HDU 1213 How Many Tables 并查集水~
http://acm.hdu.edu.cn/showproblem.php?pid=1213 果然是需要我陪跑T T,禽兽工作人员还不让,哼,但还是陪跑了~ 啊,还有呀,明天校运会终于不用去了~耶耶耶 ...
AE内置Command控件使用
樱木原文 AE内置Command控件使用直接使用AE内置的Command控件来完成功能 1.拉框放大 /// <summary> /// 放大 /// </summary> ...
多事务运行并发问题spring学习笔记——数据库事务并发与锁详解
多事务运行并发问题在实际应用中,往往是一台(或多台)服务器向无数客户程序提供服务,当服务器查询数据库获取数据时,如果没有采用必要的隔离机制,可能会存在数据库事务的并发问题,下面是一些常见的并发问题分 ...
[Angular2 Router] Guard: CanLoad
'canLoad' guard can decide whether a lazy load module can be loaded or not. @Injectable() export cla ...

spark 分组取topn

spark 分组取topn的更多相关文章

随机推荐

热门专题