Spark External Datasets

　　Spark能够从任何支持Hadoop的存储源来创建RDD，包括本地的文件系统，HDFS，Cassandra，Hbase，Amazon S3等。Spark支持textFile、SequenceFiles和任何其他的Hadoop的InputFormat格式的数据。

1、textfile的RDD可以通过SparkContext’s textFile 的方法来创建，这个方法需要传递一个文件路径URL作为参数，然后读取对应文件的每一行的数据，形成一个以行数据为单位的集合。例如：

　　　　scala> val distFile = sc.textFile("data.txt")

　　　　distFile: RDD[String] = MappedRDD@1d4cee08

2、textfile方法中，如果传入的是一个本地文件的URL，这必须保证Spark集群中其它机器也能够访问相同的URL。

3、在Spark中，所有的输入方法（包括textFile）都支持文件夹、压缩文件、通配符。例如：

　　　　textFile("/my/directory"), textFile("/my/directory/*.txt"), and textFile("/my/directory/*.gz").

4、textFile方法中，还接受第二个参数，该参数是指定对应产生的RDD的分区数。默认情况下，Spark会根据HDFS的块的大小来作为分区的大小，即以块的数量作为分区的数目M。你可以设置大于这个分区数M，但是不能设置小于这个分区数M。

5、除了textFile方法之外，Spark提供了如下的方法来加载外部数据：

　　（1）SparkContext.wholeTextFiles

　　　　该方法是读一个路径下所有的小文件，并且将每个小文件内容content作为value，文件的filename作为key，以pairs（key，value）的形式返回给客户端。该方法与textfile刚好相反，textfile是返　　　　回每个文件的每一行的记录作为key，value的形式返回。

　　（2）SparkContext’s sequenceFile[K, V]

　　　　对于sequenceFiles，我们可以用sequenceFile[K,V]方法来加载外部的数据，其中K，V的类型是文件中key和value的类型。但这都是Hadoop的Writable（是一个接口类型）类型的子类。

　　（3）SparkContext.hadoopRDD

　　　　对于其他的Hadoop的InputFormats，你可以用hadoopRDD的方法来加载外部的数据源。该方法需要传入特定的 JobConf and input format class, key class and value class

6、RDD的简单的保存方式：

　　RDD.saveAsObjectFile and SparkContext.objectFile support saving an RDD in a simple format consisting of serialized Java objects. While this is not as efficient as specialized 　　　　formats like Avro, it offers an easy way to save any RDD.

Spark External Datasets的更多相关文章

Spark官方文档 - 中文翻译
Spark官方文档 - 中文翻译 Spark版本:1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linki ...
Spark官方2 ---------Spark 编程指南（1.5.0）
概述在高层次上,每个Spark应用程序都由一个运行用户main方法的driver program组成,并在集群上执行各种 parallel operations.Spark提供的主要抽象是resil ...
Spark官方文档翻译（一）~Overview
Spark官方文档翻译,有问题请及时指正,谢谢. Overview页 http://spark.apache.org/docs/latest/index.html Spark概述 Apache Spa ...
spark RDD官网RDD编程指南
http://spark.apache.org/docs/latest/rdd-programming-guide.html#using-the-shell Overview(概述) 在较高的层次上, ...
Spark Programming Guide《翻译》
转载必须注明出处:梁杰帆在这里要先感谢原作者们!如果各位在这里发现了错误之处,请大家提出 1.Initializing Spark Spark程序必须做的第一件事就是创建一个SparkCon ...
spark api之一：Spark官方文档 - 中文翻译
转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linking with Spark) 3 初始化Spark(Initi ...
Spark RDD初探（一）
本文概要本文主要从以下几点阐述RDD,了解RDD 什么是RDD? 两种RDD创建方式向给spark传递函数Passing Functions to Spark 两种操作之转换Transformat ...
Spark译文(一)
Spark Overview(Spark概述) ·Apache Spark是一种快速通用的集群计算系统. ·它提供Java,Scala,Python和R中的高级API,以及支持通用执行图的优化引擎. ...
2.初始化spark
参考: RDD programming guide http://spark.apache.org/docs/latest/rdd-programming-guide.html SQL progr ...

随机推荐

ios回调函数的标准实现：protocol＋delegate
一.项目结构
SQL Server Replication issues-the row was not found at the subscriber end
Issue type: 1.find out the number 0x0006F18F00006082002300000000 from publication end. 2.use below s ...
ASP.NET 控件前缀命名规范
标准控件 1 btn Button 2 chk CheckBox 3 ckl CheckedListBox 4 cmb ComboBox 5 dtp DateTimePicker 6 lb ...
1. AE二次开发——地图的基本操作（加载地图文档，加载shape，加载mdb,地图的保存，缩放，漫游）
1. 加载数据Icommand方法 ICommand Butdata = new ControlsAddDataCommandClass(); Butdata.OnCreate(axMapContro ...
android 使用httpclient访问网络
在主活动类中,调用一个线程访问网络(android4.0以上耗时的操作不能放在主线程中): //声明两个Button对象,与一个TextView对象private TextView mTe ...
学习ios【2】Objective-C 数字和字符串
一数字 1.使用Foundation.h可以直接导入所有的头文件. 在XCode中,想查看某个方法帮助,可以将光标放在方法上,按住option键同时单击即可. 官方文档:https://develo ...
Visual Studio Code中文文档（一）-快速入门
Visual Studio Code是一个轻量级但是十分强大的源代码编辑器,重要的是它在Windows, OS X 和Linux操作系统的桌面上均可运行.Visual Studio Code内置了对J ...
[MISS静IOS开发原创文摘]-AppDelegate存储全局变量和 NSUserDefaults standardUserDefaults 通过模型保存和读取数据,存储自定义的对象
由于app开发的需求,需要从api接口获得json格式数据并保存临时的 app的主题颜色和相关url 方案有很多种: 1, 通过AppDelegate保存为全局变量,再获取 2,使用NSUSerD ...
BZOJ3000 Big Number
由Stirling公式: $$n! \approx \sqrt{2 \pi n} (\frac{n}{e})^n$$ 故:$$\begin{align} ans &= log_k n! + 1 ...
C# 将容器内容转成图片导出
/// 将容器内容转成图片导出,这里的controller就是this /// </summary> private void OutTheContro ...

Spark External Datasets

Spark External Datasets的更多相关文章

随机推荐

热门专题