【原】Spark 编程指南

尊重原创，注重版权，转贴请注明原文地址：http://www.cnblogs.com/vincent-hv/p/3322966.html

1、配置程序使用资源：

System.setProperty("spark.executor.memary", "512m")

2、创建自己的SparkContext对象：

val sc = new  SparkContext("master", "Job name", "$SPARK_HOME", "Job JARs")

3、创建RDDs

sc.parallelize(List(1, 2, 3))    // 将scala原生的集合转换成RDD

sc.textFile("directory/*.txt")    // 将本地磁盘上的文本转换成RDD

sc.testFile("hdfs://namenode:port/path/file")    // 将分布式文件系统上的文件转换成RDD

4、基本的RDD Transformations操作：

val nums = sc.parallelize(List(1, 2, 3))

val squares = nums.map(x => x * x)    // {1, 4, 9}

val even = squares.filter(_ % 2 == 0)    // {4}

nums.flatMap(x => 1 to x)    // {1, 1, 2, 1, 2, 3}

5、基本的Actions操作：

val nums = sc.parallelize(List(1, 2, 3))

nums.collect()    // Array(1, 2, 3)

nums.take(2)    // Array(1, 2)

nums.count()    // 3

nums.reduce(_ + _)    // 6

nums.saveAsTextFile("hdfs://file.txt")

6、针对Key-Value对的作业：

val pair = (a, b)

pair._1    // a

pair._2    // b

7、一些Key-Value对的操作：

val pets = sc.parallelize(List(("cat", 1), ("dog", 1), ("cat", 2)))

pets.reduceByKey(_ + _)    // {(cat, 3), (dog, 1)}

pets.groupByKey()    // {(cat, Seq(1, 2)), (dog, 1)}

pets.sortByKey()    // {(cat, 1), (cat, 2), (dog, 1)}

8、其他Key-Value的操作：

val visits = sc.parallelize(List(("index.html", "1.2.3.4"), ("about.html", "3.4.5.6"), ("index.html", 1.3.3.1)))

val pageNames = sc.parallelize(List(("index.html", "Home"), ("about.html", "About")))

visits.join(pageNames)    // ("index.html", ("1.2.3.4", "Hmoe"))

                          // ("index.html", ("1.3.3.1", "Home"))

                          // ("about.html", ("3.4.5.6", "About"))

vlisits.cogroup(pageNames)    // ("index.html", (Seq("1.2.3.4", 1.3.3.1), Seq("Home")))

                              // ("about.html", (Seq("3.4.5.6"), Seq("About")))

9、控制Reduce Tasks的数量：

所有的RDD组操作都可以选择设置第二个参数来控制tasks的数量

words.reduceByKey(_ + _, 5)

words.groupByKey(5)

visits.join(pageViews, 5)

当然，也可以通过设置spark.default.parallelism属性值来控制

10、使用本地变量：

在闭包中你使用任何外部变量都将自动的传递到集群：

val query = Console.readLine()

pages.filter(_.contains(query)).count()

一些注意事项：

Each task gets a new copy(updates aren`t sent bask)
变量必须序列化
不要使用一个对象的外部域

11、集群中有较大危害的示例：

12、其他RDD操作：

sample()：确定样本子集
union()：合并两个RDD
cartesian()：交叉乘积
pipe()：通过外部程序

【原】Spark 编程指南的更多相关文章

Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs) 并行集合外部 Datasets(数据集) RDD 操作基础传递 Functio ...
SparkR(R on Spark)编程指南含 dataframe操作 2.0
SparkR(R on Spark)编程指南 Spark 2015-06-09 28155 1评论下载为PDF 为什么不允许复制关注iteblog_hadoop公众号,并在这里评论区留言 ...
SparkR(R on Spark)编程指南含 dataframe操作
SparkR(R on Spark)编程指南 Spark 2015-06-09 28155 1评论下载为PDF 为什么不允许复制关注iteblog_hadoop公众号,并在这里评论区留言 ...
Spark编程指南V1.4.0(翻译)
Spark编程指南V1.4.0 · 简单介绍 · 接入Spark · Spark初始化 · 使用Shell · 在集群上部署代码 ...
转-Spark编程指南
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs) 并行集合外部 Datasets(数据集) RDD 操作基础传递 Functio ...
Spark官方2 ---------Spark 编程指南（1.5.0）
概述在高层次上,每个Spark应用程序都由一个运行用户main方法的driver program组成,并在集群上执行各种 parallel operations.Spark提供的主要抽象是resil ...
Spark编程指南分享
转载自:https://www.2cto.com/kf/201604/497083.html 1.概述在高层的角度上看,每一个Spark应用都有一个驱动程序(driver program).驱动程序 ...
Spark编程指南
1.在maven里面添加引用,spark和hdfs的客户端的. groupId = org.apache.spark artifactId = spark-core_2.9.3 version = 0 ...
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...

随机推荐

jQuery与js的length属性
js:length 属性可返回字符串中的字符数目. stringObject.length jQuery:length 属性包含 jQuery 对象中元素的数目. $(selector).length ...
VS2015企业版和专业版永久密匙
专业版:HMGNV-WCYXV-X7G9W-YCX63-B98R2企业版:HM6NR-QXX7C-DFW2Y-8B82K-WTYJV
SVG图案
前面的话给SVG元素应用填充和描边,除了使用纯色和渐变外,还可以使用图案.本文将详细介绍SVG图案概述 <pattern>可以实现重复的效果,在canvas中被翻译为模式,而在SVG中 ...
Mock Server 入门
Mock Server介绍什么是mock ? 我在去年的时候介绍一篇幅 python mock的基本使用,http://www.cnblogs.com/fnng/p/5648247.html 主要是 ...
vue-cli中父子组件间的变量传递
vue-cli中父子组件间的变量传递在vue中每一个组件的作用域都是独立的,如果我们想实现父子组件间变量的传递就要另寻他法,而不能直接调用其中的变量. 父级组件向子级组件传递变量要实现这种效果我们 ...
css编写注意事项（不定时更新）
CSS的编写是需要积累的,而一个好的css编写习惯对我们将来的成长是非常有利的,我会把我平时看到的或者遇到的会不定时的更新到这里,不时翻一下,但求有所进步. 如果各位看官也有看法和建议,评论下,我也会 ...
javascript this对象
函数运行时,自动生成的一个内部对象,只能在函数内部使用随着函数使用场合的不同,this的值也发生着改变,但是有一个总原则:this指的是调用函数的那个对象(核心) this对象的指向一般情况下,我 ...
Mac 下如何使用sed -i命令
今天在学习Linux的过程中发现了sed这一项指令首先,sed的全称是:Stream Editor 调用sed命令有两种形式: sed [options] 'command' file(s) sed ...
201521123026 《Java程序设计》第5周学习总结
1. 本章学习总结尝试使用思维导图总结有关多态与接口的知识点使用常规方法总结其他上课内容 1.接口的出现时为了实现多态,多态的实现不一定依赖于接口. 2.接口的常见成员有:全局常量和抽象方法. 3 ...
201521123080《Java程序设计》第3周学习总结
1. 本周学习总结初学面向对象,会学习到很多碎片化的概念与知识.尝试学会使用思维导图将这些碎片化的概念.知识组织起来.请使用纸笔或者下面的工具画出本周学习到的知识点.截图或者拍照上传. 2. 书面作 ...

【原】Spark 编程指南

尊重原创，注重版权，转贴请注明原文地址：http://www.cnblogs.com/vincent-hv/p/3322966.html

【原】Spark 编程指南的更多相关文章

随机推荐

热门专题