RDD的详解

RDD:弹性分布式数据集,是Spark中最基本的数据抽象,用来表示分布式集合,支持分布式操作!

RDD的创建

RDD中的数据可以来源于2个地方：本地集合或外部数据源

RDD操作

分类

转换算子

Map

···

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Demo03Map {

def main(args: Array[String]): Unit = {

val conf: SparkConf = new SparkConf()

conf.setAppName("Demo03Map").setMaster("local")

val sc: SparkContext = new SparkContext(conf)

//读取文件数据

val linesRDD: RDD[String] = sc.textFile("spark/data/words.txt")

//对数据进行扁平化处理

val flatRDD: RDD[String] = linesRDD.flatMap(_.split(","))

//按照单词分组

val groupRDD: RDD[(String, Iterable[String])] = flatRDD.groupBy(w => w)

//聚合

val wordsRDD: RDD[String] = groupRDD.map(kv => {

  val key: String = kv._1

  val words: Iterable[String] = kv._2

  key + "," + words.size

})

//分组+聚合

val mapRDD1: RDD[(String, Int)] = flatRDD.map((_, 1))

val words1: RDD[(String, Int)] = mapRDD1.reduceByKey(_ + _)

////分组+聚合

val mapRDD2: RDD[(String, Int)] = flatRDD.map((_, 1))

val words2: RDD[(String, Iterable[Int])] = mapRDD2.groupByKey()

val wordSum: RDD[(String, Int)] = words2.mapValues(_.size)

wordSum.foreach(println)

//输出

wordsRDD.foreach(println)

words1.foreach(println)

}

}

flatMap(数据扁平化处理)

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Demo04FlatMap {

  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf().setAppName("Demo04FlatMap").setMaster("local")

    val sc: SparkContext = new SparkContext(conf)

    val linesRDD: RDD[String] = sc.parallelize(List("java,scala,python", "map,java,scala"))

    //扁平化处理

    val flatRDD: RDD[String] = linesRDD.flatMap(_.split(","))

    flatRDD.foreach(println)

  }

}

Mappartitions

### map和mapPartitions区别

1）map：每次处理一条数据

2）mapPartitions：每次处理一个分区数据

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Demo05MapPartition {

def main(args: Array[String]): Unit = {

val conf: SparkConf = new SparkConf().setAppName("Demo05MapPartition").setMaster("local")

val sc: SparkContext = new SparkContext(conf)

val stuRDD: RDD[String] = sc.textFile("spark/data/words.txt",3)

stuRDD.mapPartitions(rdd => {

println("map partition")

// 按分区去处理数据

rdd.map(line => line.split(",")(1))

}).foreach(println)

}

}

fliter 过滤

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Demo06Filter {

  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf().setAppName("Demo05MapPartition").setMaster("local")

    val sc: SparkContext = new SparkContext(conf)

    val linesRDD: RDD[Int] = sc.parallelize(List(1, 2, 3, 4, 5))

    //过滤，转换算子

    linesRDD.filter(kv => {

      kv % 2 == 1

    }).foreach(println)

  }

}

sample 取样

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.rdd.RDD

object Demo07Sample {

def main(args: Array[String]): Unit = {

val conf: SparkConf = new SparkConf().setAppName("Demo05MapPartition").setMaster("local")

val sc: SparkContext = new SparkContext(conf)

/**

* sample：对数据取样

* withReplacement 有无放回

* fraction 抽样比例

* withReplacement：表示抽出样本后是否在放回去，true表示会放回去

* 这也就意味着抽出的样本可能有重复

* fraction ：抽出多少，这是一个double类型的参数,0-1之间，eg:0.3表示抽出30%

*/

val stuRDD: RDD[String] = sc.textFile("spark/data/students.txt",3)

stuRDD.sample(withReplacement = true,0.1).foreach(println)

}

}

union 将相同结结构的数据连接到一起

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Demo08Union {

  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf().setAppName("Demo05MapPartition").setMaster("local")

    val sc: SparkContext = new SparkContext(conf)

    /**union

     * 将两个相同结构的数据连接在一起

     */

    val lineRDD1: RDD[String] = sc.parallelize(List("java,scala", "data,python"))

    val lineRDD2: RDD[String] = sc.parallelize(List("spark,scala", "java,python"))

    println(lineRDD1.getNumPartitions)

    val unionRDD: RDD[String] = lineRDD1.union(lineRDD2)

    println(unionRDD.getNumPartitions)

    unionRDD.foreach(println)

  }

}

mappatitionWIthindex

//mapPartitionsWithIndex也是一个转换算子

// 会在处理每一个分区的时候获得一个index

//可以选择的执行的分区

stuRDD.mapPartitionsWithIndex((index, rdd) => {

  println("当前遍历的分区：" + index)

  // 按分区去处理数据

  rdd.map(line => line.split(",")(1))

}).foreach(println)

join 将数据按照相同key进行关联（数据必须是（K，V））

import java.io

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Demo09Join {

  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf().setAppName("Demo05MapPartition").setMaster("local")

    val sc: SparkContext = new SparkContext(conf)

    // 构建K-V格式的RDD

    val tuple2RDD1: RDD[(String, String)] = sc.parallelize(List(("001", "张三"), "002" -> "小红", "003" -> "小明"))

    val tuple2RDD2: RDD[(String, Int)] = sc.parallelize(List(("001", 20), "002" -> 22, "003" -> 21))

    val tuple2RDD3: RDD[(String, String)] = sc.parallelize(List(("001", "男"), "002" -> "女"))

    //将文件进行join

    val joinRDD: RDD[(String, (String, Int))] = tuple2RDD1.join(tuple2RDD2)

    joinRDD.map(kv => {

      val i: String = kv._1

      val j: String = kv._2._1

      val k: Int = kv._2._2

      i + "," + j + "," + k

    }).foreach(println)

    //第二种方式

    joinRDD.map {

      case (id: String, (name: String, age: Int)) => id + "*" + name + "*" + age

    }.foreach(println)

    val leftJoinRDD: RDD[(String, (String, Option[String]))] = tuple2RDD1.leftOuterJoin(tuple2RDD3)

    leftJoinRDD.map {

          //存在关联

      case (id: String, (name: String, Some(gender))) =>

        id + "*" + name + "*" + gender

        //不存在关联

      case (id: String, (name: String, None)) =>

        id + "*" + name + "*" + "_"

    }

  }

}

groupByKey  将kv格式的数据进行key的聚合

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Demo10GroupByKey {

def main(args: Array[String]): Unit = {

val conf: SparkConf = new SparkConf().setAppName("Demo10GroupByKey").setMaster("local")

val sc: SparkContext = new SparkContext(conf)

/**

* groupBy 指定分组的字段进行分组

*/

// 统计班级人数

val linesRDD: RDD[String] = sc.textFile("spark/data/students.txt")

linesRDD.groupBy(word => word.split(",")(4))

  .map(kv => {

    val key = kv._1

    val wordsCnt = kv._2.size

    key + "," + wordsCnt

  }).foreach(println)

val linesMap: RDD[(String, String)] = linesRDD.map(lines => (lines.split(",")(4), lines))

//按照key进行分组

linesMap.groupByKey()

  .map(lines=>{

    val key = lines._1

    val wordsCnt: Int = lines._2.size

    key+","+wordsCnt

  }).foreach(println)

}

}

ReduceByKey

reduceByKey 需要接收一个聚合函数

首先会对数据按key分组然后在组内进行聚合（一般是加和，也可以是Max、Min之类的操作）

相当于 MR 中的combiner

可以在Map端进行预聚合，减少shuffle过程需要传输的数据量，以此提高效率

相对于groupByKey来说，效率更高，但功能更弱

幂等操作

y = f(x) = f(y) = f(f(x))

reducebyKey与groupbykey的区别

reduceByKey：具有预聚合操作

groupByKey：没有预聚合

在不影响业务逻辑的前提下，优先采用reduceByKey。

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Demo11ReduceByKey {

  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf().setAppName("Demo11ReduceByKey").setMaster("local")

    val sc: SparkContext = new SparkContext(conf)

    val linesRDD: RDD[String] = sc.textFile("spark/data/students.txt")

    //统计班级人数

    linesRDD.map(lines => (lines.split(",")(4), lines))

      .groupByKey()

      .map(kv => {

        val key = kv._1

        val cnt = kv._2.size

        key + "" + cnt

      }).foreach(println)

    //ReduceByKey

    /**

     * reduceByKey 需要接收一个聚合函数

     * 首先会对数据按key分组 然后在组内进行聚合（一般是加和，也可以是Max、Min之类的操作）

     * 相当于 MR 中的combiner

     * 可以在Map端进行预聚合，减少shuffle过程需要传输的数据量，以此提高效率

     * 相对于groupByKey来说，效率更高，但功能更弱

     * 幂等操作

     * y = f(x) = f(y) = f(f(x))

     */

    linesRDD.map(lines=>(lines.split(",")(4),1))

      .reduceByKey(_+_)

      .foreach(println)

  }

}

sort 排序，默认升序

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.rdd.RDD

object Demo12Sort {

def main(args: Array[String]): Unit = {

val conf: SparkConf = new SparkConf().setAppName("Demo12Sort").setMaster("local")

val sc: SparkContext = new SparkContext(conf)

val linesRDD: RDD[String] = sc.textFile("spark/data/students.txt")

/**

 * sortBy 转换算子

 * 指定按什么排序 默认升序

 *

 * sortByKey 转换算子

 * 需要作用在KV格式的RDD上，直接按key排序 默认升序

 */

linesRDD.sortBy(lines => lines.split(",")(2), ascending = false) //按照年纪降序

  .take(10) //转换算子打印十行

  .foreach(println)

val mapRDD: RDD[(String, String)] = linesRDD.map(l => (l.split(",")(2), l))

mapRDD.sortByKey(ascending = false)

  .take(10)

  .foreach(println)

}

}

Mapvalue

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Demo13MapValue {

  def main(args: Array[String]): Unit = {

    /**

     * mapValues 转换算子

     * 需要作用在K—V格式的RDD上

     * 传入一个函数f

     * 将RDD的每一条数据的value传给函数f，key保持不变

     * 数据规模也不会改变

     */

    val conf: SparkConf = new SparkConf().setAppName("Demo13MapValue").setMaster("local")

    val sc: SparkContext = new SparkContext(conf)

    val linesRDD: RDD[(String, Int)] = sc.parallelize(List(("zs", 10), ("zzw", 34), ("lm", 18)))

    linesRDD.mapValues(lines=>lines*2)

      .foreach(println)

  }

### 行为算子

![](https://img2020.cnblogs.com/blog/2506444/202111/2506444-20211110144134743-1836525955.png)

RDD的详解、创建及其操作的更多相关文章

ASP.NET MVC Filters 4种默认过滤器的使用【附示例】数据库常见死锁原因及处理 .NET源码中的链表多线程下C#如何保证线程安全? .net实现支付宝在线支付彻头彻尾理解单例模式与多线程 App.Config详解及读写操作判断客户端是iOS还是Android，判断是不是在微信浏览器打开
ASP.NET MVC Filters 4种默认过滤器的使用[附示例] 过滤器(Filters)的出现使得我们可以在ASP.NET MVC程序里更好的控制浏览器请求过来的URL,不是每个请求都会响 ...
App.Config详解及读写操作
App.Config详解及读写操作 App.Config详解应用程序配置文件是标准的 XML 文件,XML 标记和属性是区分大小写的.它是可以按需要更改的,开发人员可以使用配置文件来更改设置,而 ...
Spark RDD API详解(一) Map和Reduce
RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看,RDD可以简单看成是一个数组.和普通数组的区别是,RDD中的数据是分区存储的,这样不同 ...
[转载]App.Config详解及读写操作
App.Config详解应用程序配置文件是标准的 XML 文件,XML 标记和属性是区分大小写的.它是可以按需要更改的,开发人员可以使用配置文件来更改设置,而不必重编译应用程序.配置文件的根节点是c ...
(转)App.Config详解及读写操作
App.Config详解应用程序配置文件是标准的 XML 文件,XML 标记和属性是区分大小写的.它是可以按需要更改的,开发人员可以使用配置文件来更改设置,而不必重编译应用程序.配置文件的根节点是c ...
Spark RDD API详解之：Map和Reduce
RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看, RDD可以简单看成是一个数组.和普通数组的区别是,RDD中的数据是分区存储的,这样不 ...
mysql详解常用命令操作，利用SQL语句创建数据表—增删改查
关系型数据库的核心内容是关系即二维表 MYSQL的启动和连接show variables; [所有的变量] 1服务端启动查看服务状态 sudo /etc/init.d/mysql status ...
python数据库操作常用功能使用详解(创建表/插入数据/获取数据)
实例1.取得MYSQL版本复制代码代码如下: # -*- coding: UTF-8 -*-#安装MYSQL DB for pythonimport MySQLdb as mdbcon = Non ...
版本控制之五：SVN trunk(主线) branch(分支) tag(标记) 用法详解和详细操作步骤（转）
使用场景: 假如你的项目(这里指的是手机客户端项目)的某个版本(例如1.0版本)已经完成开发.测试并已经上线了,接下来接到新的需求,新需求的开发需要修改多个文件中的代码,当需求已经开始开发一段时间的时 ...

随机推荐

『Python』列表生成式、生成器与迭代器
1. 迭代在 Python中, 迭代是通过 for ... in 来完成的, 而很多语言比如 C 语言, 迭代 list 是通过下标完成的. Python 的 for 循环抽象程度要高于 C 的 f ...
english note(6.10to6.16)
6.10 http://www.51voa.com/VOA_Special_English/blackbeard-s-ship-comes-to-the-us-supreme-court-82217_ ...
P5363-[SDOI2019]移动金币【阶梯博弈,dp,组合数学】
正题题目链接:https://www.luogu.com.cn/problem/P5363 题目大意 \(1\times n\)的网格上有\(m\)个硬币,两个人轮流向前移动一个硬币但是不能超过前一 ...
WebMagic 爬虫技术
WebMagic WebMagic 介绍 WebMagic基础架构 Webmagic 的结构分为 Downloader.PageProcessor.Scheduler.Pipeline四大组件,并由 ...
用OpenCV显示视频时遇到问题
刚刚接触OpenCV,运行了书上的例程,程序编译没有问题,在视频显示快要结束时遇到了下面的问题,代码在后面 #include "stdafx.h"#include <open ...
一文学会Java事件机制
本文同时发布于个人网站 https://ifuyao.com/blog/java-event/ 相信做 Java 开发的朋友,大多都是学习过或至少了解过 Java GUI 编程的,其中有大量的事件和控 ...
初探区块链数字加密资产标准ERC721
ERC721介绍数字加密货币大致可以分为原生币(coin)和代币(token)两大类.前者如BTC.ETH等,拥有自己的区块链.后者如Tether.TRON.ONT等,依附于现有的区块链.市场上流通 ...
java课堂测试3第一部分（未完善）
package test3;import java.util.*; public class Grade2 { static String[][] mis=new String[500][4]; // ...
CF1082E Increasing Frequency (multiset+乱搞+贪心）
题目大意: \(给你n个数a_i,给定一个m,你可以选择一个区间[l,r],让他们区间加一个任意数,然后询问一次操作完之后,最多能得到多少个m\) QWQ 考场上真的** 想了好久都不会,直到考试快结 ...
python socket zmq
本篇博客将介绍zmq应答模式,所谓应答模式,就是一问一答,规则有这么几条 1. 必须先提问,后回答 2. 对于一个提问,只能回答一次 3. 在没有收到回答前不能再次提问上代码,服务端: #codin ...

RDD的详解、创建及其操作

RDD的详解

RDD的创建

RDD操作

分类

转换算子

RDD的详解、创建及其操作的更多相关文章

随机推荐

热门专题