Spark实现二次排序

一.代码实现

 package big.data.analyse.scala.secondsort

 import org.apache.log4j.{Level, Logger}

 import org.apache.spark.sql.SparkSession

 /** 二次排序

   * Created by zhen on 2019/5/29.

   */

 class SecondSortByKey(val first:Int,val second:Int) extends Ordered[SecondSortByKey] with Serializable{

   def compare(other : SecondSortByKey): Int ={

     if(this.first - other.first != 0){//正序

       this.first - other.first

     }else{//倒序

       other.second - this.second

     }

   }

 }

 object SecondSortByKey{

   /**

     * 设置日志级别

     */

   Logger.getLogger("org").setLevel(Level.WARN)

   def main(args: Array[String]) {

     val spark = SparkSession

       .builder()

       .appName("SecondSortByKey")

       .master("local[2]")

       .getOrCreate()

     val sc = spark.sparkContext

     val rows = sc.textFile("src/big/data/analyse/scala/secondsort/sort.txt")

     val pairWithSortByKey = rows

       .filter(row=>row.split(" ").length==3)//过滤错误的数据

       .map(row=>{

         val array = row.split(" ")

         (new SecondSortByKey(array(0).toInt,array(1).toInt),row)

     })

     println("先正序后倒序")

     pairWithSortByKey

       .sortByKey(true) // 排序,true：先正序后倒序，false：先倒序后正序

       .map(map => map._2)

       .collect()

       .foreach(println)

     println("先倒序后正序")

     pairWithSortByKey

       .sortByKey(false) // 排序,true：先正序后倒序，false：先倒序后正序

       .map(map => map._2)

       .collect()

       .foreach(println)

     sc.stop()

   }

 }

二.结果

先正序后倒序

1 9 ES

1 8 HBase

2 4 Tachyon日渐成熟

2 3 《黑豹》异军突起

2 3 Radis

3 3 HDFS

3 3 搜索引擎

5 3 spark发布2.4版本，性能提升巨大

5 2 《复仇者联盟3:无限战争》火热上映

6 3 Maven

7 2 Solr

先倒序后正序

7 2 Solr

6 3 Maven

5 2 《复仇者联盟3:无限战争》火热上映

5 3 spark发布2.4版本，性能提升巨大

3 3 HDFS

3 3 搜索引擎

2 3 《黑豹》异军突起

2 3 Radis

2 4 Tachyon日渐成熟

1 8 HBase

1 9 ES

Process finished with exit code 0

Spark实现二次排序的更多相关文章

分别使用Hadoop和Spark实现二次排序
零.序(注意本部分与标题无太大关系,可直接调至第一部分) 既然没用为啥会有序?原因不想再开一篇文章,来抒发点什么感想或者计划了,就在这里写点好了: 前些日子买了几本书,打算学习和研究大数据方面的知识, ...
spark的二次排序
通过scala实现二次排序 package _core.SortAndTopN import org.apache.spark.{SparkConf, SparkContext} /** * Auth ...
Spark基础排序+二次排序（java+scala）
1.基础排序算法 sc.textFile()).reduceByKey(_+_,).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair= ...
spark函数sortByKey实现二次排序
最近在项目中遇到二次排序的需求,和平常开发spark的application一样,开始查看API,编码,调试,验证结果.由于之前对spark的API使用过,知道API中的sortByKey()可以自定 ...
详细讲解MapReduce二次排序过程
我在15年处理大数据的时候还都是使用MapReduce, 随着时间的推移, 计算工具的发展, 内存越来越便宜, 计算方式也有了极大的改变. 到现在再做大数据开发的好多同学都是直接使用spark, hi ...
Spark（二）算子详解
目录 Spark(二)算子讲解一.wordcountcount 二.编程模型三.RDD数据集和算子的使用 Spark(二)算子讲解 @ 一.wordcountcount 基于上次的wordcoun ...
MapReduce二次排序
默认情况下,Map 输出的结果会对 Key 进行默认的排序,但是有时候需要对 Key 排序的同时再对 Value 进行排序,这时候就要用到二次排序了.下面让我们来介绍一下什么是二次排序. 二次排序原理 ...
Hadoop Mapreduce分区、分组、二次排序过程详解[转]
原文地址:Hadoop Mapreduce分区.分组.二次排序过程详解[转]作者: 徐海蛟教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2) ...
Hadoop.2.x_高级应用_二次排序及MapReduce端join
一.对于二次排序案例部分理解 1. 分析需求(首先对第一个字段排序,然后在对第二个字段排序) 杂乱的原始数据排序完成的数据 a,1 a,1 b,1 a,2 a,2 [排序] a,100 b,6 == ...

随机推荐

【GMT43智能液晶模块】例程十八：LAN_HTTP实验——网页服务器
源代码下载链接: 链接:https://pan.baidu.com/s/1sr4a7TBPyvs18jTfCfVj8Q 提取码:jwfv 复制这段内容后打开百度网盘手机App,操作更方便哦 GMT43 ...
IEEE-754格式标准，float，
float float类型数字在计算机中用4个字节存储.遵循IEEE-754格式标准: 一个浮点数有2部分组成:底数m和指数e 底数部分使用二进制数来表示此浮点数的实际值指数部分占用8bit的二进 ...
IOS开发依赖管理工具CocoaPods
CocoaPods IOS开发依赖管理工具 CocoaPods is a dependency manager for Swift and Objective-C Cocoa projects. It ...
【Spring Boot学习之三】Spring Boot整合数据源
环境 eclipse 4.7 jdk 1.8 Spring Boot 1.5.2 一.Spring Boot整合Spring JDBC 1.pom.xml <project xmlns=&quo ...
vs解决方案中添加文件夹
一般我们在github上面看到的项目结构基本都是把项目放到src文件夹中,test放测试查了半天也没查到这个是怎么产生的...这边只能用比较笨的方法来完成. 解决方法中是允许我们添加解决方案文件夹, ...
使用Docker快速搭建Zookeeper和kafka集群
使用Docker快速搭建Zookeeper和kafka集群镜像选择 Zookeeper和Kafka集群分别运行在不同的容器中zookeeper官方镜像,版本3.4kafka采用wurstmeiste ...
快排 PAT 1101
1101 Quick Sort (25 分) There is a classical process named partition in the famous quick sort algor ...
【洛谷4482】Border的四种求法（后缀自动机_线段树合并_链分治）
这题我写了一天后交了一发就过了我好兴奋啊啊啊啊啊啊题目洛谷 4482 分析这题明明可以在线做的,为什么我见到的所有题解都是离线啊 -- 什么时候有机会出一个在线版本坑人. 题目的要求可以转化为求 ...
MATLAB爬虫爬取股票数据
近年来,大数据盛行,有关爬虫的教程层次不穷.那么,爬虫到底是什么呢? 什么是爬虫? 百度百科是这样定义的: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种 ...
类型的实参与“LPTHREAD_START_ROUTINE”类型的形参不兼容
在使用利用CreateThread创建线程时 struct A { DWORD WINAPI MyThreadFunction(LPVOID) {} void Run() { HANDLE hThre ...

Spark实现二次排序

一.代码实现

二.结果

Spark实现二次排序的更多相关文章

随机推荐

热门专题