RDDs基本操作之Transformations

逐元素Transformation

map()

map()接收函数，把函数应用到RDD的每个元素，返回新的RDD

举例：

val lines = sc.parallelize(Array("hello", "spark", "hello", "world")

val lines2 = lines.map(word => (word,1))

打印出来

lines2.foreach(println)

hello,1

spark,1

hello,1

world,1

filter()

filter接收函数，返回只包含满足filter()函数的元素的新RDD

val lines3 = lines.filter(word=>word.contains("hello"))

lines3.foreach(println)

hello

hello

flatMap()

对每个输入元素，输出多个输出元素。

flat是压扁的意思，将RDD中元素压扁后返回一个新的RDD。

举例：

spark.txt文件中的内容

val inputs = sc.textFile("spark.txt")

val lines = inputs.flatMap(line => line.split(" "))

lines.foreach(print)

输入如下：

hello!helloworldhellospark

集合运算

RDDs支持数字集合的计算，例如并集，交集计算。

举例：

val rdd1 = sc.parallelize(Array("hello", "spark", "hello", "world")

val rdd2= sc.parallelize(Array("hello", "spark", "hi")

运算

1、去重

val rdd_distinct=rdd1.distinct()

2、并集

val rdd_union = rdd1.union(rdd2)

3、交集

val rdd_inter = rdd1.intersection(rdd2)

4、特别的

val rdd_sub=rdd1.subtract(rdd2)

RDDs基本操作之Transformations的更多相关文章

RDDs基本操作、RDDs特性、KeyValue对RDDs、RDD依赖
摘要:RDD是Spark中极为重要的数据抽象,这里总结RDD的概念,基本操作Transformation(转换)与Action,RDDs的特性,KeyValue对RDDs的Transformation ...
Spark快速入门 - Spark 1.6.0
Spark快速入门 - Spark 1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 快速入门(Quick Start) 本文简单介绍了Spark的使用方式.首 ...
<Spark><Running on a Cluster>
Introduction 之前学习的时候都是通过使用spark-shell或者是在local模式运行spark 这边我们首先介绍Spark分布式应用的架构,然后讨论在分布式clusters中运行Spa ...
[Spark]What's the difference between spark.sql.shuffle.partitions and spark.default.parallelism?
From the answer here, spark.sql.shuffle.partitions configures the number of partitions that are used ...
大数据入门第二十四天——SparkStreaming（一）入门与示例
一.概述 1.什么是spark streaming Spark Streaming is an extension of the core Spark API that enables scalabl ...
Spark记录-官网学习配置篇（一）
参考http://spark.apache.org/docs/latest/configuration.html Spark提供三个位置来配置系统: Spark属性控制大多数应用程序参数,可以使用Sp ...
Parallelism , Partitioner
转:spark通过合理设置spark.default.parallelism参数提高执行效率 spark中有partition的概念(和slice是同一个概念,在spark1.2中官网已经做出了说明) ...
Spark Streaming原理简析
执行流程数据的接收 StreamingContext实例化的时候,需要传入一个SparkContext,然后指定要连接的spark matser url,即连接一个spark engine,用于获得 ...
<译>Spark Sreaming 编程指南
Spark Streaming 编程指南 Overview A Quick Example Basic Concepts Linking Initializing StreamingContext D ...

随机推荐

Linux权限管理(7)
权限的基本介绍: rwx权限详解: rwx作用到文件: [r]:代表可读,可以读取.查看 [w]:代表可写,可以修改,但不代表可以删除该文件,删除一个文件的前提条件是对该文件所在的目录有写权限才能删除 ...
mave 笔记
有时maven在myeclipse配置不好用,可直接cmd到项目目录下执行下面命令,将maven包下载到当前文件夹的lib目录下 mvn dependency:copy-dependencies -D ...
spring data jpa 的使用
使用spring data jpa 开发时,发现国内对spring boot jpa全面介绍的文章比较少案例也比较零碎,因此写文章总结一下. spring data jpa介绍首先了解JPA是什么? ...
springboot项目中的普通Session和使用redis存储session
普通session: session store type使用来存放session的存储方式,目前Spring boot中只支持Redis方式, 由于本应用暂无需将session放入redis的需求, ...
缓存系列-Redis入门教程
Redis是什么? Redis (REmote DIctionary Server)是一个开源(BSD许可),内存存储的数据结构服务器,可用作数据库,高速缓存和消息队列,是一个高性能的key-valu ...
mysql中的截取函数及其实例
一.mysql截取字符串函数 1.left(str,length) 从左边截取length 2.right(str,length)从右边截取length 3.substring(str,index)当 ...
ZOJ-3964 Yet Another Game of Stones
Yet Another Game of Stones 题意: Alice 和 Bob 在进行取石子游戏, 现在一共有n堆石子, 每堆石头有ai个, 然后每堆石头有一个bi属性, 如果bi == 0, ...
如何设计web系统的监控
如何使用httpclient设计开发一套web系统监控? 我之前有实现和写过关于运维和开发两个层面的监控系统的文章(https://www.cnblogs.com/zhikou/p/8576891.h ...
stm32f10x基于freeRTOS的低功耗实现
0. 写在前面没有太多时间更新,可能偶尔有时间就更新一些. 因为突然有项目用到了stm32f10x系列并且是电池驱动的,所以需要对功耗进行优化,其他CM3核心系列应该也同样适用. 1. 背景 Stm ...
Mysql的事务及行级锁
转自:http://www.cnblogs.com/edwinchen/p/4171866.html 以签到为例,每个用户每天只能签到一次,那么怎么去判断某个用户当天是否签到呢?因为当初表设计的时候, ...

RDDs基本操作之Transformations

逐元素Transformation

map()

filter()

flatMap()

集合运算

运算

RDDs基本操作之Transformations的更多相关文章

随机推荐

热门专题