Spark 基础及RDD基本操作

什么是RDD

RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。
RDD的属性

一组分片（Partition），即数据集的基本组成单位。对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。

一个计算每个分区的函数。Spark中RDD的计算是以分片为单位的，每个RDD都会实现compute函数以达到这个目的。compute函数会对迭代器进行复合，不需要保存每次计算的结果。

RDD之间的依赖关系。RDD的每次转换都会生成一个新的RDD，所以RDD之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时，Spark可以通过这个依赖关系重新计算丢失的分区数据，而不是对RDD的所有分区进行重新计算。

一个Partitioner，即RDD的分片函数。当前Spark中实现了两种类型的分片函数，一个是基于哈希的HashPartitioner，另外一个是基于范围的RangePartitioner。只有对于于key-value的RDD，才会有Partitioner，非key-value的RDD的Parititioner的值是None。Partitioner函数不但决定了RDD本身的分片数量，也决定了parent RDD Shuffle输出时的分片数量。

一个列表，存储存取每个Partition的优先位置（preferred location）。对于一个HDFS文件来说，这个列表保存的就是每个Partition所在的块的位置。按照“移动数据不如移动计算”的理念，Spark在进行任务调度的时候，会尽可能地将计算任务分配到其所要处理数据块的存储位置。
基本RDD操作
创建RDD：
1）读取外部数据集
val file=sc.textFile(“hdfs://hadoop1:9000/input/word/word.txt”)

2）在驱动器程序中对一个集合进行并行化

        val lines = sc.parallelize(List("pandas","i like pandas"))

RDD操作：
RDD转化操作是返回一个新的RDD的操作，比如map()和filter()
RDD行动操作则是向驱动器程序返回结果或把结果写入外部系统的操作，会触发实际的计算
1）转化操作
val inputRDD = sc.textFile(“hdfs://hadoop1:9000/input/word/word.txt”)

    val keyRDD = inputRDD.filter(line => line.contains("guofei"))

2）行动操作0

    val keyRDD = inputRDD.filter(line => line.contains("guofei"))

    wantRDD.take(10).foreach(println)

常见的转化操作和行动操作
1.转化操作
map()与flatMap()区别
flatMap 将函数应用于RDD中的每个元素，将返回的迭代器的所有的内容构成新的RDD，通常用来切分单词
val lines = sc.parallelize(List(“come on”,”guofei”))
var words = lines.flatMap(line => line.split(” “))
words.collect()

map 将函数应用于RDD中的每个元素，将返回值构成新的RDD

var words1 = lines.map(line => line.split(" "))

words1.collect()

filter 返回一个由通过传给filter()的函数的元素组成的RDD

val list = sc.parallelize(List(1,2,3,3))

val listFilter = list.filter(x => x != 1)

listFilter.collect()

distinct 去重

val listDistinct = list.distinct()

listDistinct.collect()

union() 生成一个包含俩哥哥RDD中所有元素的RDD

val list = sc.parallelize(List(3,4,5))

val list1 = sc.parallelize(List(1,2,3))

val union = list.union(list1)

union.collect()

intersection() 求两个RDD共同的元素的RDD

list.intersection(list1).collect()

subtract() 移除里一个RDD中的内容

list.subtract(list1).collect()

cartesian() 与另一个RDD的笛卡儿积

list.cartesian(list1).collect()

2.行动操作
reduce()
val list = sc.parallelize(List(3,4,5))
list.reduce((x,y) => x + y)

collect() 返回RDD中的所有元素

count() RDD中的元素个数

countByValue() 各元素在RDD中出现的次数

take(num) 从RDD中返回num个数

top(num) RDD中返回最前面的num个元素

takeOrdered(num)(ordering) 从RDD中按照提供的舒徐返回最前见的num元素

reduce(func) 并行整合RDD中左右数据

fold(zero)(func) 和reduce一样，但是需要提供初始值

aggregate(zeroValue)(seqOp,combOp) 和reduce相似，但是通常返回不同类型的函数

键值对操作：
创建Pair RDD

使用第一个单词作为键创建出一个pair RDD
val file=sc.textFile(“hdfs://hadoop1:9000/input/word/word.txt”)
file.map(x => (x.split(” “)(0),x)).collect()

Pair RDD的转化操作
创建Pair
val list1 = sc.parallelize(List((1,2),(3,4),(3,6)))
list1.collect()

reduceByKey(func) 合并具有相同键的值
list1.reduceByKey((x,y) => x+y).collect()

groupByKey() 对具有相同键的值进行分组
list1.groupByKey.collect()

mapValues(func) 对pair RDD中的每个值应用一个函数而不改变键
list1.mapValues(x => x+1).collect()

flatMapValues(func) 对pair RDD中的每个值应用一个返回迭代器的函数，然后对返回的每个元素都生成一个对应原键对记录。通常用于符号化
list1.flatMapValues(x => (x to 5)).collect()

keys() 返回一个仅包含键的RDD
list1.keys.collect()

values（）返回一个仅包含值得RDD
list1.values.collect()

sortByKey() 返回一个根据键排序的RDD
list1.sortByKey().collect()

针对两个pair RDD的转化操作
val rdd = sc.parallelize(List((1,2),(3,4),(3,6)))
val other = sc.parallelize(List((1,2)))

subtractByKey 删掉RDD中键与other中的键相同的元素
rdd.subtractByKey(other).collect()

join 对两个RDD进行内连接
rdd.join(other).collect()

leftOuterJoin() 对两个RDD进行连接操作，确保第二个RDD的键必须存在（左外连接）
rdd.leftOuterJoin(other).collect()

cogroup() 将两个RDD中拥有相同键的数据分组到一起
rdd.cogroup(other).collect()

Spark 基础及RDD基本操作的更多相关文章

Spark笔记：RDD基本操作（上）
本文主要是讲解spark里RDD的基础操作.RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当 ...
Spark笔记：RDD基本操作（下）
上一篇里我提到可以把RDD当作一个数组,这样我们在学习spark的API时候很多问题就能很好理解了.上篇文章里的API也都是基于RDD是数组的数据模型而进行操作的. Spark是一个计算框架,是对ma ...
Spark基础和RDD
spark 1. Spark的四大特性速度快 spark比mapreduce快的两个原因基于内存 1. mapreduce任务后期在计算的是时候,每一个job的输出结果都会落地到磁盘,后续有其他的 ...
Spark RDD/Core 编程 API入门系列之rdd实战（rdd基本操作实战及transformation和action流程图）（源码）（三）
本博文的主要内容是: 1.rdd基本操作实战 2.transformation和action流程图 3.典型的transformation和action RDD有3种操作: 1. Trandform ...
Spark基础：（二）Spark RDD编程
1.RDD基础 Spark中的RDD就是一个不可变的分布式对象集合.每个RDD都被分为多个分区,这些分区运行在分区的不同节点上. 用户可以通过两种方式创建RDD: (1)读取外部数据集====> ...
Spark基础入门（01）—RDD
1,基本概念 RDD(Resilient Distributed Dataset) :弹性分布式数据集它是Spark中最基本的数据抽象,是编写Spark程序的基础.简单的来讲,一个Spark程序可以 ...
【Spark基础】：RDD
我的代码实践:https://github.com/wwcom614/Spark 1.RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式 ...
spark基础知识
1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架. dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopM ...
最全的spark基础知识解答
原文:http://www.36dsj.com/archives/61155 一. Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduc ...

随机推荐

Linux vm运行参数 - OOM相关的参数
一.前言本文是描述Linux virtual memory运行参数的第二篇,主要是讲OOM相关的参数的.为了理解OOM参数,第二章简单的描述什么是OOM.如果这个名词对你毫无压力,你可以直接进入第三 ...
标准I/O库
前言:我想大家学习C语言接触过的第一个函数应该是printf,但是我们真正理解它了吗?最近看Linux以及网络编程这块,我觉得I/O这块很难理解.以前从来没认识到Unix I/O和C标准库I/O函数压 ...
CLH队列锁
http://blog.csdn.net/aesop_wubo/article/details/7533186 CLH锁即Craig, Landin, and Hagersten (CLH) lock ...
win7下安装ubuntu双系统的方法及心得体会（ps：要死好几回的节奏）
1.win7下安装ubuntu系统后,可以很好进入ubuntu系统但是进不去win7,开机有win7选项,但是选择后不管用方法思路:各种修复win7的mbr 我的问题是:在winpe中发现,根本看 ...
开发Yii2过滤器并通过behaviors()行为调用（转）
在Yii2的几乎每个controller中,我们都会看到一个函数behaviors(),通常,我们用这个函数来配置控制器的权限,例如:public function behaviors() { ...
Dockerfile最佳实践(一)
1.使用缓存 Dockerfile的每条指令都会将结果提交为新的镜像,下一跳指令将会基于上一步指令的镜像的基础上构建,如果一个镜像存在相同的父镜像和指令(除了ADD),Docker将会使用镜像而不是 ...
Centos设置静态IP及修改Centos配置文件的方法
通常,如果我们想更改主机地址为静态地址或者更改主机名,需要修改的几个文件包括: /etc/sysconfig/network Centos设置主机名和网络配置 /etc/sysconfig/netwo ...
判断js对象是否拥有某一个属性的js代码
js对象是否拥有某一个属性的判断方法有很多. 本文分享一个简单的方法,如下: <script> /** * 判断js对象是否具有某属性 * by www.jbxue.com */ var ...
HDU 4670 Cube number on a tree ( 树的点分治 )
题意 : 给你一棵树 . 树的每一个结点都有一个权值 . 问你有多少条路径权值的乘积是一个全然立方数 . 题目中给了你 K 个素数 ( K <= 30 ) , 全部权值都能分解成这k个素数思路 ...
Serviceability
http://hg.openjdk.java.net/jdk7u/jdk7u2/hotspot/file/6259c6d3bbb7/agent/doc/clhsdb.html http://blog. ...

Spark 基础及RDD基本操作

Spark 基础及RDD基本操作的更多相关文章

随机推荐

热门专题