Spark-Core RDD的创建

hyunbar 2024-10-07 11:00:34 原文

一、RDD创建的3种方式：

　　1、从集合中创建RDD

　　2、从外部存储创建RDD

　　3、从其他RDD转换得到新的RDD

二、从集合中创建RDD

　　1、使用parallelize函数创建　

 scala> val arr = Array(10,20,30,40,50,60)

 arr: Array[Int] = Array(10, 20, 30, 40, 50, 60)

 scala> val rdd1 = sc.parallelize(arr)

 rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:26

　　2、使用makeRDD函数创建

 makeRDD和parallelize是一样的.

 scala> val rdd1 = sc.makeRDD(Array(10,20,30,40,50,60))

 rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at makeRDD at <console>:24

　　3、说明

　　（1）一旦 RDD 创建成功, 就可以通过并行的方式去操作这个分布式的数据

　　（2）parallelize和makeRDD还有一个重要的参数就是把数据集切分成的分区数

　　（3）Spark 会为每个分区运行一个任务(task). 正常情况下, Spark 会自动的根据你的集群来设置分区数

三、从外部存储创建 RDD

　　Spark可以从任意Hadoop支持的存储数据源来创建分布式数据集

　　可以是本地文件系统，HDFS、Cassandra、HBase、Amazon S3等

　　Spark 支持文本文件, SequenceFiles, 和其他所有的 Hadoop InputFormat　　

 scala> var distFile = sc.textFile("words.txt")

 distFile: org.apache.spark.rdd.RDD[String] = words.txt MapPartitionsRDD[1] at textFile at <console>:24

 scala> distFile.collect

 res0: Array[String] = Array(hello, hello world, how are you, abc efg)

　　说明：

　　（1）url可以是本地文件系统文件, hdfs://..., s3n://...等等

　　（2）如果是使用的本地文件系统的路径, 则必须每个节点都要存在这个路径

　　（3）所有基于文件的方法, 都支持目录, 压缩文件, 和通配符(*). 例如:　　

textFile("/my/directory"), textFile("/my/directory/*.txt"), and textFile("/my/directory/*.gz")

　　（4）textFile还可以有第二个参数, 表示分区数. 默认情况下, 每个块对应一个分区.(对 HDFS 来说, 块大小默认是 128M). 可以传递一个大于块数的分区数, 但是不能传递一个比块数小的分区数

　　

四、从其他 RDD 转换得到新的 RDD

Spark-Core RDD的创建的更多相关文章

Spark Core知识点复习-1
Day1111 Spark任务调度 Spark几个重要组件 Spark Core RDD的概念和特性生成RDD的两种类型 RDD算子的两种类型算子练习分区 RDD的依赖关系 DAG:有向无环图 ...
Spark RDD概念学习系列之RDD的创建（六）
RDD的创建两种方式来创建RDD: 1)由一个已经存在的Scala集合创建 2)由外部存储系统的数据集创建,包括本地文件系统,还有所有Hadoop支持的数据集,比如HDFS.Cassandra.H ...
Spark核心RDD、什么是RDD、RDD的属性、创建RDD、RDD的依赖以及缓存、
1:什么是Spark的RDD??? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行 ...
Spark Core (一) 什么是RDD的Transformation和Action以及Dependency（转载）
1. Spark的RDD RDD(Resilient Distributed Datasets),弹性分布式数据集,是对分布式数据集的一种抽象. RDD所具备5个主要特性: 一组分区列表计算每一个数 ...
【Spark】快来学习RDD的创建以及操作方式吧！
目录 RDD的创建三种方式从一个集合中创建从文件中创建从其他的RDD转化而来 RDD编程常用API 算子分类 Transformation 概述帮助文档常用Transformation表 ...
【Spark Core】任务运行机制和Task源代码浅析1
引言上一小节<TaskScheduler源代码与任务提交原理浅析2>介绍了Driver側将Stage进行划分.依据Executor闲置情况分发任务,终于通过DriverActor向exe ...
[转]Spark学习之路（三）Spark之RDD
Spark学习之路 (三)Spark之RDD https://www.cnblogs.com/qingyunzong/p/8899715.html 目录一.RDD的概述 1.1 什么是RDD? ...
Spark Core
Spark Core DAG概念有向无环图 Spark会根据用户提交的计算逻辑中的RDD的转换(变换方法)和动作(action方法)来生成RDD之间的依赖关系,同时 ...
Spark学习之路（三）Spark之RDD
一.RDD的概述 1.1 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素 ...
spark core （二）
一.Spark-Shell交互式工具 1.Spark-Shell交互式工具 Spark-Shell提供了一种学习API的简单方式, 以及一个能够交互式分析数据的强大工具. 在Scala语言环境下或Py ...

随机推荐

4--面试总结-promise
promise异步原理: 定义:promise是异步编程的解决方案,可以解决异步回调地狱的问题: 原理:三种状态两种结果的一个状态机:三种状态(pending,fulfilled,rejected)两 ...
linux局域网通过映射（双网卡）访问外网
图示说明: 1.IP规划设置主机名 ip地址 ip地址(第二个网卡配置的地址) 地址类别 oldboy01 192.168.10.20 空仅可访问内网主机 oldboy02 192.168.10. ...
Facebook再现丑闻，约100位应用程序开发人员偷看用户数据
Facebook今天披露了另一起安全事件,承认大约100名应用程序开发人员可能不正确地访问了某些Facebook组中的用户数据,包括他们的姓名和个人资料图片. 在周二发布的博客文章中,Facebook ...
Hive 笔试题
Hive 笔试题考试时间: 姓名:____________ 考试成绩:____________ 考试时长:180 分钟注意事项: 1. 自主答题,不能参考任何除本试卷外的其它资料. 2. 总成绩共 ...
React 之React.createContext
使用Context,可以跨越组件进行数据传递 import React from 'react'; import ReactDOM from 'react-dom'; const ThemeConte ...
php list()函数语法
php list()函数语法作用:用于在一次操作中给一组变量赋值.博智达语法:list(var1,var2...) 参数: 参数描述 var1 必需.第一个需要赋值的变量. var2,... ...
UOJ #228. 基础数据结构练习题线段树 + 均摊分析 + 神题
题目链接一个数被开方 #include<bits/stdc++.h> #define setIO(s) freopen(s".in","r",st ...
layer.confirm
layer.confirm('确定不选择花车?', { title: false, btn: ['确定','取消'] //按钮 }, function(ind){ layer.close(ind); ...
动态GI
在Engine/Config 目录中找到ConsoleVariables.ini并打开,在其中加入 r.LightPropagationVolume = 1 ,保存,重启引擎如果场景中有Post P ...
Xcode Server持续集成
这是一篇2017-11-12 年我还在 ezbuy 的一篇文章,时间过去很早了,最近在整理笔记的时候发现了, 同步过来,文章内容现在是否有效不确定,应该大差不差,读者仅做参考最后更新 2017-11 ...