Spark-自定义排序

一、自定义排序规则-封装类

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

/**

  * 实现自定义的排序

  */

object MySort1 {

  def main(args: Array[String]): Unit = {

    //1.spark程序的入口

    val conf: SparkConf = new SparkConf().setAppName("MySort1").setMaster("local[2]")

    val sc: SparkContext = new SparkContext(conf)

    //2.创建数组

    val girl: Array[String] = Array("Mary,18,80","Jenny,22,100","Joe,30,80","Tom,18,78")

    //3.转换RDD

    val grdd1: RDD[String] = sc.parallelize(girl)

    //4.切分数据

    val grdd2: RDD[Girl] = grdd1.map(line => {

      val fields: Array[String] = line.split(",")

      //拿到每个属性

      val name = fields(0)

      val age = fields(1).toInt

      val weight = fields(2).toInt

      //元组输出

      //(name, age, weight)

      new Girl(name, age, weight)

    })

//    val sorted: RDD[(String, String, Int)] = grdd2.sortBy(t => t._2, false)

//    val r: Array[(String, String, Int)] = sorted.collect()

//    println(r.toBuffer)

    val sorted: RDD[Girl] = grdd2.sortBy(s => s)

    val r = sorted.collect()

    println(r.toBuffer)

    sc.stop()

  }

}

//自定义类 scala Ordered

class Girl(val name: String, val age: Int, val weight: Int) extends Ordered[Girl] with Serializable {

  override def compare(that: Girl): Int = {

    //如果年龄相同 体重重的往前排

    if(this.age == that.age){

      //如果正数 正序 负数 倒序

      -(this.weight - that.weight)

    }else{

      //年龄小的往前排

      this.age - that.age

    }

  }

  override def toString: String = s"名字:$name,年龄:$age,体重:$weight"

}

结果：

二、

二、自定义排序规则-模式匹配

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.rdd.RDD

object MySort2 {

  def main(args: Array[String]): Unit = {

    //1.spark程序的入口

    val conf: SparkConf = new SparkConf().setAppName("MySort2").setMaster("local[2]")

    val sc: SparkContext = new SparkContext(conf)

    //2.创建数组

    val girl: Array[String] = Array("Mary,18,80","Jenny,22,100","Joe,30,80","Tom,18,78")

    //3.转换RDD

    val grdd1: RDD[String] = sc.parallelize(girl)

    //4.切分数据

    val grdd2: RDD[(String, Int, Int)] = grdd1.map(line => {

      val fields: Array[String] = line.split(",")

      //拿到每个属性

      val name = fields(0)

      val age = fields(1).toInt

      val weight = fields(2).toInt

      //元组输出

      (name, age, weight)

    })

    //5.模式匹配方式进行排序

    val sorted = grdd2.sortBy(s => Girl2(s._1, s._2, s._3))

    val r = sorted.collect()

    println(r.toBuffer)

    sc.stop()

  }

}

//自定义类 scala Ordered

case class Girl2(val name: String, val age: Int, val weight: Int) extends Ordered[Girl2] {

  override def compare(that: Girl2): Int = {

    //如果年龄相同 体重重的往前排

    if(this.age == that.age){

      //如果正数 正序 负数 倒序

      -(this.weight - that.weight)

    }else{

      //年龄小的往前排

      this.age - that.age

    }

  }

  override def toString: String = s"名字:$name,年龄:$age,体重:$weight"

}

结果：

三、

三、自定义排序规则-隐式转换

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.rdd.RDD

//定义一个专门处理隐式的类

object ImplicitRules {

  //定义隐式规则

  implicit object OrderingGirl extends Ordering[Girl1]{

    override def compare(x: Girl1, y: Girl1): Int = {

      if(x.age == y.age){

        //体重重的往前排

        -(x.weight - y.weight)

      }else{

        //年龄小的往前排

        x.age - y.age

      }

    }

  }

}

object MySort3 {

  def main(args: Array[String]): Unit = {

    //1.spark程序的入口

    val conf: SparkConf = new SparkConf().setAppName("MySort3").setMaster("local[2]")

    val sc: SparkContext = new SparkContext(conf)

    //2.创建数组

    val girl: Array[String] = Array("Mary,18,80","Jenny,22,100","Joe,30,80","Tom,18,78")

    //3.转换RDD

    val grdd1: RDD[String] = sc.parallelize(girl)

    //4.切分数据

    val grdd2 = grdd1.map(line => {

      val fields: Array[String] = line.split(",")

      //拿到每个属性

      val name = fields(0)

      val age = fields(1).toInt

      val weight = fields(2).toInt

      //元组输出

      (name, age, weight)

    })

    import ImplicitRules.OrderingGirl

    val sorted = grdd2.sortBy(s => Girl1(s._1, s._2, s._3))

    val r = sorted.collect()

    println(r.toBuffer)

    sc.stop()

  }

}

//自定义类 scala Ordered

case class Girl1(val name: String, val age: Int, val weight: Int)

结果：

Spark-自定义排序的更多相关文章

Spark(三)【RDD中的自定义排序】
在RDD中默认的算子sortBy,sortByKey只能真的值类型数据升序或者降序现需要对自定义对象进行自定义排序. 一组Person对象 /** * Person 样例类 * @param nam ...
大数据学习day22------spark05------1. 学科最受欢迎老师解法补充 2. 自定义排序 3. spark任务执行过程 4. SparkTask的分类 5. Task的序列化 6. Task的多线程问题
1. 学科最受欢迎老师解法补充 day21中该案例的解法四还有一个问题,就是当各个老师受欢迎度是一样的时候,其排序规则就处理不了,以下是对其优化的解法实现方式五 FavoriteTeacher5 p ...
Spark基础排序+二次排序（java+scala）
1.基础排序算法 sc.textFile()).reduceByKey(_+_,).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair= ...
spark高级排序彻底解秘
排序,真的非常重要! RDD.scala(源码) 在其,没有罗列排序,不是说它不重要! 1.基础排序算法实战 2.二次排序算法实战 3.更高级别排序算法 4.排序算法内幕解密 1.基础排序算法实战启 ...
大数据学习day29-----spark09-------1. 练习：统计店铺按月份的销售额和累计到该月的总销售额（SQL, DSL,RDD） 2. 分组topN的实现（row_number(), rank(), dense_rank()方法的区别）3. spark自定义函数-UDF
1. 练习数据: (1)需求1:统计有过连续3天以上销售的店铺有哪些,并且计算出连续三天以上的销售额第一步:将每天的金额求和(同一天可能会有多个订单) SELECT sid,dt,SUM(mone ...
Java集合框架实现自定义排序
Java集合框架针对不同的数据结构提供了多种排序的方法,虽然很多时候我们可以自己实现排序,比如数组等,但是灵活的使用JDK提供的排序方法,可以提高开发效率,而且通常JDK的实现要比自己造的轮子性能更优 ...
DataTable自定义排序
使用JQ DataTable 的时候,希望某列数据可以进行自定义排序,操作如下:(以中文排序和百分比排序为例) 1:定义排序类型: //百分率排序 jQuery.fn.dataTableExt.oSo ...
干货之UICollectionViewFlowLayout自定义排序和拖拽手势
使用UICollectionView,需要使用UICollectionViewLayout控制UICollectionViewCell布局,虽然UICollectionViewLayout提供了高度自 ...
DataGridView 绑定List集合后实现自定义排序
这里只贴主要代码,dataList是已添加数据的全局变量,绑定数据源 datagridview1.DataSource = dataList,以下是核心代码. 实现点击列表头实现自定义排序 priva ...
【转】c++中Vector等STL容器的自定义排序
如果要自己定义STL容器的元素类最好满足STL容器对元素的要求必须要求: 1.Copy构造函数 2.赋值=操作符 3.能够销毁对象的析构函数另外: 1. ...

随机推荐

ASP代码审计学习笔记 -4.命令执行漏洞
命令执行漏洞: 保存为cmd.asp,提交链接: http://localhost/cmd.asp?ip=127.0.0.1 即可执行命令 <%ip=request("ip" ...
java jni调用
http://www.cnblogs.com/mandroid/archive/2011/06/15/2081093.html
TCPdump指定时间或者指定大小进行循环抓取报文
背景:我们用tcpdump工具循环抓取网卡上的报文,我们会遇到如下情况: 1. 抓取报文后隔指定的时间保存一次: 2. 抓取报文后达到指定的大小保存一次: 本文就这两种情况给出tcpdump的使用方法 ...
iOS富文本组件的实现—DTCoreText源码解析渲染篇
本文转载至 http://blog.cnbang.net/tech/2729/ 上一篇介绍了DTCoreText怎样把HTML+CSS解析转换成NSAttributeString,本篇接着看看怎样把N ...
Windows内存放血篇，突破物理内存的CopyOnWrite
本篇以x86(开启PAE) 以及x64 Win7系统不借助微软API突破内存的写拷贝机制进行讲述 https://bbs.pediy.com/thread-222949.htm 0x01 B ...
分布式实时日志系统（一）环境搭建之 Jstorm 集群搭建过程/Jstorm集群一键安装部署
最近公司业务数据量越来越大,以前的基于消息队列的日志系统越来越难以满足目前的业务量,表现为消息积压,日志延迟,日志存储日期过短,所以,我们开始着手要重新设计这块,业界已经有了比较成熟的流程,即基于流式 ...
Nginx学习之keepalive
当然,在nginx中,对于http1.0与http1.1也是支持长连接的.什么是长连接呢?我们知道,http请求是基于TCP协议之上的,那么,当客户端在发起请求前,需要先与服务端建立TCP连接,而每一 ...
使用atomic一定是线程安全的吗？
这个问题很少遇到,但是答案当然不是.atomic在set方法里加了锁,防止了多线程一直去写这个property,造成难以预计的数值.但这也只是读写的锁定.跟线程安全其实还是差一些.看下面. @inte ...
jenkins中Email Extersion Plugin插件使用说明点
在jenkins中使用第3方邮件插件Email Extersion Plugin时,根据网上教程,发现每次都没有生成模板再次查看,发现 $HOME_jenkins下没有templeate文件夹,查阅 ...
使用VLC推送TS流（纯图版）
在没有编码器的情况下,可以使用VLC进行推送TS+UDP流操作步骤如下: 一.UDP方式: 媒体-->流选用要播放的文件,可以选择多个来播放,选择串流播放这里直接点击下一步需要选择在本地 ...

Spark-自定义排序

Spark-自定义排序的更多相关文章

随机推荐

热门专题