RDD的转换操作，分三种：单value，双value交互，（k,v）对

import org.apache.spark.rdd.RDD
import org.apache.spark.{Partitioner, SparkConf, SparkContext}

object Transformation {

  def main(args: Array[String]): Unit = {

    val config: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Transformation")

    val sc = new SparkContext(config)

    val listRDD = sc.makeRDD(1 to 10)

    val listRDD2 = sc.makeRDD(Array(List(1, 2), List(3, 4)))

    val listRDD3 = sc.makeRDD(5 to 14)

    /***************************单value*****************************/

    /**

      * map(func)

      * 每次处理1条数据

      */

//    val mapRDD = listRDD.map(_ * 2)

    /**

      * mapPartitions(func)

      * 每次处理一组分区数据，效率高，但可能出现内存溢出（因为处理完一组分区后再释放）

      */

//     val mapPartitionsRDD = listRDD.mapPartitions(datas=>{

//       datas.map(data => data * 2)

//     })

    /**

      * mapPartitionsWithIndex(func)

      * 函数的输入多了分区号

      */

//    val tupleRDD: RDD[(Int, String)] = listRDD.mapPartitionsWithIndex {

//      case (num, datas) => {

//        datas.map((_, " 分区号：" + num))

//      }

//    }

    /**

      *  flatMap(func)

      *  将map后的数据扁平

      */

//    val flatMAPRDD: RDD[Int] = listRDD2.flatMap(datas => datas)

    /**

      * glom()

      * 将一个分区的数据放在一个数组里

      */

//    val glomRDD: RDD[Array[Int]] = listRDD.glom()

    /**

      * groupBy(func)

      * 按照函数的返回值进行分组，分组后的数据（K：分组的key,V：分组的集合）

      */

//    val groupByRDD: RDD[(Int, Iterable[Int])] = listRDD.groupBy(i => i%2)

//    groupByRDD.collect().foreach(println)

    /**

      * filter(func)

      * 按照返回值为true的过滤

      */

//    val filterRDD: RDD[Int] = listRDD.filter(x => x % 2 ==0)

//    filterRDD.collect().foreach(println)

    /**

      * sample(withReplacement : scala.Boolean, fraction : scala.Double, seed : scala.Long)

      * 随机抽样

      */

//    val sampleRDD: RDD[Int] = listRDD.sample(false, 0.4, 1)

//    sampleRDD.collect().foreach(println)

    /**

      * distinct()

      * 去重，且去重后会shuffler，可以指定去重后的分区数

      */

//    val distinctRDD: RDD[Int] = listRDD.distinct()

//    distinctRDD.collect().foreach(println)

    /**

      * coalesce(n)

      * 缩减分区的数量，可以简单的理解为合并分区，默认，没有shuffler，可以加参数true指定shuffler

      */

//    println("缩减分区前 = " + listRDD.partitions.size)

//    val coalesceRDD: RDD[Int] = listRDD.coalesce(2)

//    println("缩减分区前 = " + coalesceRDD.partitions.size)

    /**

      * repartition()

      * 重新分区，有shuffler。它其实就是带true的coalesce

      */

//    listRDD.glom().collect().foreach(arrays => {

//      println(arrays.mkString(","))

//    })

//    val repartitionRDD: RDD[Int] = listRDD.repartition(2)

//    repartitionRDD.glom().collect().foreach(arrays => {

//      println(arrays.mkString(","))

//    })

    /**

      * sortBy(f: (T) => K,ascending: Boolean = true,numPartitions: Int = this.partitions.length))

      * 根据函数排序

      */

//    val sortByRDD: RDD[Int] = listRDD.sortBy(n => n % 2, false)

//    sortByRDD.collect().foreach(println)

    /**************************双value交互*****************************/

    /**

      * 双value交互

      * A.union(B)         对A、B合并。（不去重）

      * A.subtract(B)      对A减去和B中的相同的

      * A.cartesian(B)     对A、B求笛卡尔乘积

      * A.zip(B)           将A、B组成(k,v)，个数、分区数要相等

      * A.union(B) 对A、B求并集

      */

//    listRDD.union(listRDD3).collect().foreach(println)

//    listRDD.subtract(listRDD3).collect().foreach(println)

//    listRDD.intersection(listRDD3).collect().foreach(println)

//    listRDD.cartesian(listRDD3).collect().foreach(println)

//    listRDD.zip(listRDD3).collect().foreach(println)

    /**************************（k,v）对*******************************/

    val pairRDD1: RDD[(Int, String)] = sc.parallelize(Array((1, "aa"), (1, "bb"), (3, "cc"), (3, "dd")),  4)

    val pairRDD2: RDD[(String, Int)] = sc.parallelize(Array(("a", 3), ("a", 2), ("c", 4),

                                                            ("b", 3), ("c", 6), ("c", 8)),  2)

    val pairRDD3: RDD[(Int, String)] = sc.parallelize(Array((1, "zzz"), (3, "xxx")))

    /**

      * partitionBy(partitioner: Partitioner)

      * 按照分区器进行分区

      */

//    pairRDD1.partitionBy(new org.apache.spark.HashPartitioner(2))

//      .glom().collect().foreach(arrays => {

//      println(arrays.mkString(","))

//    })

//    pairRDD1.partitionBy(new MyPartitioner(3))

//      .glom().collect().foreach(arrays => {

//      println(arrays.mkString(","))

//    })

    /**

      * groupByKey()

      * 单纯把key相等的value放在一起，生成序列

      */

//    pairRDD1.groupByKey().collect().foreach(println)

    /**

      * reduceByKey(func)

      * 按key聚合，并且按函数对key相等的value进行操作

      */

//    pairRDD1.reduceByKey(_ + _)

//      .glom().collect().foreach(arrays => {

//      println(arrays.mkString(","))

//    })

    /**

      * aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U, combOp: (U, U) => U)

      * zeroValue：每个分区的每一个key的初始值

      * seqOp：每个分区里的聚合函数

      * seqOp：分区间的聚合函数

      */

    // 取出每个分区相同对key的最大值，在相加

//    pairRDD2.aggregateByKey(0)(math.max(_,_), _+_)

//      .glom().collect().foreach(arrays => {

//      println(arrays.mkString(","))

//    })

    /**

      * foldByKey(zeroValue: V)(func: (V, V) => V)

      * 其实就是aggregateByKey的简化版，seqOp和seqOp相同

      */

//    pairRDD2.foldByKey(0)(_ + _)

//      .glom().collect().foreach(arrays => {

//      println(arrays.mkString(","))

//    })

    /**

      * combineByKey[C](

      * createCombiner: V => C,

      * mergeValue: (C, V) => C,

      * mergeCombiners: (C, C) => C,

      * partitioner: Partitioner,

      * mapSideCombine: Boolean = true,

      * serializer: Serializer = null)

      *

      * 主要就是比aggregateByKey多了一个createCombiner，用于计算初始值

      */

    // 计算相同key的value的均值

//    pairRDD2.combineByKey(

//      (_, 1),

//      (acc:(Int, Int), v) => (acc._1 + v, acc._2 + 1),

//      (acc1:(Int, Int), acc2:(Int, Int)) => (acc1._1 + acc2._1, acc1._2 + acc2._2))

//      .map{case (key, value) => (key, value._1 / value._2.toDouble)}

//      .collect().foreach(println)

    /**

      * sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.length)

      * 按key排序

      */

//    pairRDD1.sortByKey(true)

//      .collect().foreach(println)

    /**

      * mapValues(func)

      * 只对value做转换

      */

//    pairRDD1.mapValues(value => value + "|||")

//      .collect().foreach(println)

    /**

      * A.join(B, numP)

      * 把key相同的value组合在一起(性能较低)

      */

//    pairRDD1.join(pairRDD3)

//      .collect().foreach(println)

    /**

      * A.cogroup(B)

      * （k, v1） 和 （k, v2）cogroup 后，得到（k, v1集合，v2集合）

      */

    pairRDD1.cogroup(pairRDD3)

      .collect().foreach(println)

    sc.stop()

  }

}

// 自定义分区器

class MyPartitioner (partitions: Int) extends Partitioner {

  override def numPartitions: Int = {

    partitions

  }

  override def getPartition(key: Any): Int = {

    1

  }

}

　　//只写代码不让我发出来--忽略这一行

RDD的转换操作，分三种：单value，双value交互，（k,v）对的更多相关文章

python对mysql数据库操作的三种不同方式
首先要说一下,在这个暑期如果没有什么特殊情况,我打算用python尝试写一个考试系统,希望能在下学期的python课程实际使用,并且尽量在此之前把用到的相关技术都以分篇博客的方式分享出来,有想要交流的 ...
PHP实现链式操作的三种方法详解
这篇文章主要介绍了PHP实现链式操作的三种方法,结合实例形式分析了php链式操作的相关实现技巧与使用注意事项,需要的朋友可以参考下本文实例讲述了PHP实现链式操作的三种方法.分享给大家供大家参考,具 ...
CAD转DXF怎么转换?教你三种转换方法
CAD图纸在我们日常生活中都是可见到的,因为CAD图纸文件的格式是多样的,在工作中就需要经常将CAD的格式进行转换.那CAD转DXF怎么转换呢?这个问题很多的小伙伴们都遇到过,下面小编就来教大家三种转 ...
Spring实现初始化和销毁bean之前进行的操作，三种方式
关于在spring 容器初始化 bean 和销毁前所做的操作定义方式有三种: 第一种:通过@PostConstruct 和 @PreDestroy 方法实现初始化和销毁bean之前进行的操作第二 ...
RDD的转换操作---RDD转换过程
1) union(otherRDD)RDD-->UnionRDD2) groupByKey(numPartitions)RDD-->ShuffledRDD-->MapPartitio ...
javascript浮点数转换成整数三种方法
将浮点数转换成整数方法有很多,分享三种常用方法. Summary 暂时我就想到3个方法而已.如果读者想到其他好用方法,也可以交流一下 parseInt位运算符Math.floor Math.ceil ...
Cortex-M 实现互斥操作的三种方法
注:本文仅针对Cortex-M3/4 系列进行讲述. 在传统的ARM处理器架构中,常使用SWP指令来实现锁的读/写原子操作,但从ARM v6开始,读/写访问在独立的两条总线上进行,SWP指令已无法在此 ...
Egret中的三种单例写法
1 普通的单例写法 as3中也是这么个写法. 缺点:每个单例类里都要写instance和getInstance. class Single{ private static instance:Singl ...
List转换Map的三种方式
1.for循环 ... 2.使用guava Map<Long, User> maps = Maps.uniqueIndex(userList, new Function<User, ...

随机推荐

sql基础语句50条
curdate() 获取当前日期年月日 curtime() 获取当前时间时分秒 sysdate() 获取当前日期+时间年月日时分秒 */ order by bonus desc limit ( ...
jQuery-对列表的操作
主要是通过对dom元素的增加和删除实现对数据增加和删除 <!DOCTYPE html> <html lang="en"> <head> < ...
完整且易读的微信小程序的注册页面（包含倒计时验证码、获取用户信息）
目录 1.页面展示 2.wxml代码 3.wxss代码 4.js代码 1.页面展示 2.wxml代码  <scr ...
登录-退出，在T分钟实现BC次用户登录退出，单次登录-退出%90用户时间t,需要的并发用户（线程）
聚合报告%90响应时间:%90用户响应时小于该值 2种理解方式: 一. 1s可完成的用户1/t: T分钟完成的用户T *(1/t); BC次用户需要的线程数Thread= BC/(T*(1/t)) = ...
201871010126 王亚涛《面向对象程序设计（Java）》第七周实验总结
---恢复内容开始--- 项目内容这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh/ 这个作业的要求在哪里 https://www.cnblogs.com ...
201871010131-张兴盼《面向对象程序设计（Java）》第十周学习总结
项目内容这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh/ 这个作业要求在哪里 https://www.cnblogs.com/nwnu-daizh/p/ ...
多线程(五)多线程同步_Event事件
事件和互斥体同样属于内核同步对象,它和互斥体以及临界区在功能上有以下区别前面的互斥体和临界区主要作用在于确保控制多个线程之间对共享资源访问,保证共享资源的完整性事件主要作用是通知其它线程一个操作己 ...
js中，null, '',undefined的区别
在js中有三种值都可以代表false "",null,undefined 那么他们之间到底有什么区别呢首先我们先看这三种值得类型 ""代表了一个没有字符的字 ...
Nginx配置文件nginx.conf（八）
原文链接:https://www.cnblogs.com/knowledgesea/p/5175711.html 在nginx.conf的注释符号是#. 默认的nginx.conf内容为: #user ...
JDOJ3010 核反应堆
JDOJ3010 核反应堆 https://neooj.com/oldoj/problem.php?id=3010 题目描述某核反应堆有两类事件发生: 高能质点碰击核子时,质点被吸收,放出3个高能质 ...

RDD的转换操作，分三种：单value，双value交互，（k,v）对

RDD的转换操作，分三种：单value，双value交互，（k,v）对的更多相关文章

随机推荐

热门专题