Spark- Transformation实战

RDD的算子分为两类,是 Trans formation(Lazy),一类是 Action(触发任务执行
RDD不存在真正要计算的数据,而是记录了RDD的转换关系(调用了什么方法,传入什么函数)

RDD的 Trans formation的特点
1. lazy
2.生成新的RDD

package cn.rzlee.spark.core

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object TransformationOperation {

  def main(args: Array[String]): Unit = {

  //map()

  //filter()

  //flatMap()

    // groupByKey()

  //reduceByKey()

    //sortByKey()

    join()

  }

  // 将集合中每个元素乘以2

  def map(){

    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[1]")

    val sc = new SparkContext(conf)

    val numbers = Array(1,2,3,4,5)

    val numberRDD: RDD[Int] = sc.parallelize(numbers,1)

    numberRDD.foreach(num=>println(num))

  }

  // 过滤出集合中的偶数

  def filter(): Unit ={

    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[1]")

    val sc = new SparkContext(conf)

    val numbers = Array(1,2,3,4,5)

    val numberRDD: RDD[Int] = sc.parallelize(numbers,1)

    val evenNumbersRdd = numberRDD.filter(num=>num%2==0)

    evenNumbersRdd.foreach(num=>println(num))

  }

  // 将行拆分为单词

  def flatMap(): Unit ={

    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[1]")

    val sc = new SparkContext(conf)

    val lineArray = Array("hello you", "just do it", "go go go")

    val lines = sc.parallelize(lineArray, 1)

    val words: RDD[String] = lines.flatMap(line=>line.split(" "))

    words.foreach(word=>println(word))

  }

  // 将每个班级的成绩进行分组

  def groupByKey(): Unit ={

    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[1]")

    val sc = new SparkContext(conf)

    val scoresList = Array(Tuple2("class1", 50), Tuple2("class1", 95), Tuple2("class2", 60), Tuple2("class2", 88))

    val scores: RDD[(String, Int)] = sc.parallelize(scoresList, 1)

    val groupedScoreds = scores.groupByKey()

    groupedScoreds.foreach(scored=>{

      println(scored._1)

      scored._2.foreach(singleScore=>println(singleScore))

      println("=====================================")

    })

  }

  // 统计每个班级的总分

  def reduceByKey(): Unit ={

    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[1]")

    val sc = new SparkContext(conf)

    val scoresList = Array(Tuple2("class1", 50), Tuple2("class1", 95), Tuple2("class2", 60), Tuple2("class2", 88))

    val scores: RDD[(String, Int)] = sc.parallelize(scoresList, 1)

    val totalScores: RDD[(String, Int)] = scores.reduceByKey(_+_)

    totalScores.foreach(totalScore=>println(totalScore._1 +" : " + totalScore._2))

  }

  //将学生分数进行排序

  def sortByKey(): Unit ={

    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[1]")

    val sc = new SparkContext(conf)

    val scoreList = Array(Tuple2(90,"leo"), Tuple2(99, "kent"), Tuple2(80,"Jeo"), Tuple2(91,"Ben"), Tuple2(96,"Sam"))

    val scores: RDD[( Int,String)] = sc.parallelize(scoreList, 1)

    val sortedScores = scores.sortByKey(false)

    sortedScores.foreach(student=>println(student._2 +" : " + student._1))

  }

  // 打印每个学生的成绩

  def join(): Unit ={

    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[1]")

    val sc = new SparkContext(conf)

    val studentsList = Array(Tuple2(1,"leo"), Tuple2(2, "Sam"), Tuple2(3, "kevin"))

    val scoresList = Array(Tuple2(1,60), Tuple2(2,70), Tuple2(3,80))

    val students: RDD[(Int, String)] = sc.parallelize(studentsList,1)

    val scores: RDD[(Int, Int)] = sc.parallelize(scoresList,1)

    val studentScores: RDD[(Int, (String, Int))] = students.join(scores)

    studentScores.foreach(studentScore=>{

      println("studentid: "+studentScore._1)

      println("studentNmae:"+studentScore._2._1)

      println("studentScore: "+ studentScore._2._2)

      println("###################################################")

    })

  }

// 打印每个学生的成绩
// cogroup相当于full join
def cogroup(): Unit ={
  val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[1]")
  val sc = new SparkContext(conf)

  val studentsList = Array(Tuple2(1,"leo"), Tuple2(2, "Sam"), Tuple2(3, "kevin"))
  val scoresList = Array(Tuple2(1,60), Tuple2(2,70), Tuple2(3,80))

  val students: RDD[(Int, String)] = sc.parallelize(studentsList,1)
  val scores: RDD[(Int, Int)] = sc.parallelize(scoresList,1)

  val studentScores: RDD[(Int, (Iterable[String], Iterable[Int]))] = students.cogroup(scores)
  studentScores.foreach(studentScore =>{
    println("studentid: " + studentScore._1)
    println("studentname: "+ studentScore._2._1)
    println("studentscore: "+ studentScore._2._2)

  })

#union求并集，注意类型要一致

val rdd6 = sc.parallelize(List(5,6,4,7))

val rdd7 = sc.parallelize(List(1,2,3,4))

val rdd8 = rdd6.union(rdd7)

rdd8.distinct.sortBy(x=>x).collect

#intersection求交集

val rdd9 = rdd6.intersection(rdd7)

#join(连接) 注意按照key相join

val rdd1 = sc.parallelize(List(("tom", 1), ("jerry", 2), ("kitty", 3)))

val rdd2 = sc.parallelize(List(("jerry", 9), ("tom", 8), ("shuke", 7), ("tom", 2)))

val rdd3 = rdd1.join(rdd2)

val rdd3 = rdd1.leftOuterJoin(rdd2)

val rdd3 = rdd1.rightOuterJoin(rdd2)

#cogroup 有点像全外连接

    // cogroup

val rdd1 = sc.parallelize(List(("tom", 1), ("tom", 2), ("jerry", 3), ("kitty", 2)))
val rdd2 = sc.parallelize(List(("jerry", 2), ("tom", 1), ("shuke", 2)))

val rdd3 = rdd1.cogroup(rdd2)

println(rdd3.collect().toBuffer)

#cartesian笛卡尔积

val rdd1 = sc.parallelize(List("tom", "jerry"))

val rdd2 = sc.parallelize(List("tom", "kitty", "shuke"))

val rdd3 = rdd1.cartesian(rdd2)

Spark- Transformation实战的更多相关文章

Spark入门实战系列--1.Spark及其生态圈简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .简介 1.1 Spark简介年6月进入Apache成为孵化项目,8个月后成为Apache ...
Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spar ...
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
【Todo】【读书笔记】大数据Spark企业级实战版 & Scala学习
下了这本<大数据Spark企业级实战版>, 另外还有一本<Spark大数据处理:技术.应用与性能优化(全)> 先看前一篇. 根据书里的前言里面,对于阅读顺序的建议.先看最后的S ...
《大数据Spark企业级实战》
基本信息作者: Spark亚太研究院王家林丛书名:决胜大数据时代Spark全系列书籍出版社:电子工业出版社 ISBN:9787121247446 上架时间:2015-1-6 出版日期:20 ...
倾情大奉送--Spark入门实战系列
这一两年Spark技术很火,自己也凑热闹,反复的试验.研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家.这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介.编译.部署,再到编 ...
Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Tachyon介绍 1.1 Tachyon简介随着实时计算的需求日益增多,分布式内存计算 ...
Spark入门实战系列--2.Spark编译与部署（上）--基础环境搭建
[注] 1.该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取: 2.Spark编译与部署将以CentOS 64位操作系统为基础,主要是考虑到实际应用 ...
Spark入门实战系列--2.Spark编译与部署（中）--Hadoop编译安装
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .编译Hadooop 1.1 搭建环境 1.1.1 安装并设置maven 1. 下载mave ...
Spark入门实战系列--2.Spark编译与部署（下）--Spark编译安装
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .编译Spark .时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 ...

随机推荐

C++ Primer（第五版）读书笔记 & 习题解答 --- Chapter 1
Chapter 1.1 1. 每个C++程序都必须有且只能有一个main函数,main函数的返回类型必须是int.操作系统通过调用main函数来运行C++程序. 2. 一个函数的定义包含四部分:返回类 ...
nginx http proxy 正向代理
配置 Nginx Http Proxy 代理服务器,与 [Squid] 功能一样,适用于正向代理 Http 网站. 一,Nginx 正向代理配置文件: server { resolver 8.8.8. ...
CentOS 源码安装svn
一. 下载依赖包 1. apr源码包 http://mirrors.tuna.tsinghua.edu.cn/apache//apr/apr-1.5.2.tar.gz 2. apr-util源码包 h ...
RecyclerView 必知必会（转）
[腾讯Bugly干货分享]RecyclerView 必知必会本文来自于腾讯Bugly公众号(weixinBugly),未经作者同意,请勿转载,原文地址:http://mp.weixin.qq.com ...
GDB + gdbserver 远程调试mediaserver进程
远程调试步骤在Android设备上启动gdbserver并attach你想调试的进程,并指定监听调试命令的端口(此端口是TV上的端口) $ adb shell # ps |grep media # ...
MongoDBTemplate多条件查询的问题
问题: 在使用Spring Data MongoDB 进行条件查询数据时,发现条件判断不起作用,结果会返回所有的数据. Criteria criteria = new Criteria(); crit ...
RabbitMQ与Redis做队列比较
本文仅针对RabbitMQ与Redis做队列应用时的情况进行对比具体采用什么方式实现,还需要取决于系统的实际需求简要介绍RabbitMQRabbitMQ是实现AMQP(高级消息队列协议)的消息中间件 ...
poj1845(二分快速求等比数列模M和)
Sumdiv Time Limit: 1000MS Memory Limit: 30000K Total Submissions: 17039 Accepted: 4280 Descripti ...
jquery 通过属性选择器获取input不为disabled的对象
$("input[id^='input_001']:not(:disabled)").each(function(){ console.log(this); });
EasyNVR无插件直播服务器软件接口调用返回“Unauthorized”最简单的处理方式
背景需求对于EasyNVR的受众群体十分的广泛,不仅仅有将EasyNVR作为视频直播平台直接使用的,更多的是使用EasyNVR的对应功能集成到自身系统.对于前者,只需要将软件的使用功能搞清楚即可,对 ...

Spark- Transformation实战

Spark- Transformation实战的更多相关文章

随机推荐

热门专题