Spark第一个研究笔记1一片 - Spark一个简短的引论

该公司推出的在线项目Spark拥有近1随着时间的推移。有效，Spark事实上，优秀的分布式计算平台，以提高生产力。

开始本篇笔记。此前的研究会Spark研究报告共享出来（由于篇幅的限制，它将被划分成制品），为了帮助刚接触Spark的朋友们尽快入门。

以下開始正文。

1. 项目背景

Spark项目于2009年诞生于UC Berkeley AMP Lab并于2010年正式提交Apache Software Foundation成为开源项目。眼下已经成为Apache下的明星项目，其代码提交活跃度在整个社区的全部项目中名列前茅。

2. Spark的性能

若运算过程所有在内存中完毕，与Hadoop集群支持Map/Reduce的Streaming计算相比。在计算速度方面，Spark会有100x倍的性能提升；即使运算会产出中间文件，速度也有10x倍的提升。

3. 编译

从官网下载合适的Spark版本号，建议下载pre-built版本号，能够省去不少依赖问题。

Installing Doc的build guide是用Maven来编译Spark源代码的，且编译过程中有些细节參数须要指定。这里不再赘述，直接參考官网guide就可以。

4. Spark集群的部署模式

4.1 Spark集群部署模式

眼下支持下面几种部署方式：

1) Standalone模式

将Spark集群单独部署，不与不论什么现有系统耦合，cluster manager由Spark的master实例担任。这是最简单的部署模式。

详细部署时，可启多个master实例，借助zookeeper消除单点故障。从而实现HA：zookeepr选出”现役”的master，其余实例standby，若当前master实例故障，则zookeeper从standby的实例中选新主。

2) Apache Mesos模式

cluster manager由mesos master实例来担任。实现资源分配及任务调度。

3) Hadoop YARN模式

cluster manager由YARN ResourceManager来担任

注意：Spark程序编译时须要引入YARN支持才干应用YARN模式。

关于这3种部署模式的具体说明。可參考官网文档的说明。

4.2 Spark集群典型结构

从Cluster Mode Overview文档可知，一个典型的Spark集群包括的组件例如以下图所看到的。

Spark应用提交Spark集群后。任务脚本中创建的Spark context对象（又称为driver program。事实上是在Sparkclient所在机器上启动的一个JVM进程）会依次运行例如以下步骤：

1) 建立与cluster manager进程的连接

2) 向manager申请任务所需资源（worker节点上的executor进程。实现详细的计算及数据存储）

3) 将应用程序代码（jar或.py文件）发往申请到的executor进程

4) 向executor进程发送由调度器分解job->stages->tasks后的tasks并由后者负责运行

几点补充说明：

1) Spark context无法也无须感知其底层的cluster manager是何种类型（3种可能：Spark standalone/apache mesos/hadoop yarn），仅仅要它能够通过culster manager申请到executor进程。它就能够运行Spark应用。

2) 每一个Spark应用均会申请独立的executor进程（即不同的Spark任务相应的进程间相互独立）。长处：实现应用隔离，从调度端看。不同应用创建各自的Spark context实例，每一个driver仅仅调度自己的任务；从执行端看，不同应用的executor进程执行在各自的JVM上。缺点：若不借助外部存储系统。数据无法在不同的Spark应用间共享。

3) Spark应用申请的executor进程在应用的运行时间内保持alive，且它以multi-threading方式运行详细的计算任务。

4) Spark context实例所属的driver program负责在集群上调度任务。故在部署上，driver的部署节点应尽可能靠近worker节点。最好部署在同一局域网内。

未完待续。下篇笔记将会介绍怎样通过Sparkclient向Spark集群提交计算任务。

【參考资料】

1. Spark Overview

2. Cluster Mode Overview

3. Spark Documentation PS: 这里有不少从浅到深的Spark资料

========================= EOF ====================

Spark第一个研究笔记1一片 - Spark一个简短的引论的更多相关文章

spark第一篇--简介，应用场景和基本原理
摘要: spark的优势:(1)图计算,迭代计算(2)交互式查询计算 spark特点:(1)分布式并行计算框架(2)内存计算,不仅数据加载到内存,中间结果也存储内存为了满足挖掘分析与交互式实时查询的 ...
Spark第一个应用程序
首先要对源码进行编译,生成对应hadoop版本的spark开发程序jar包,上篇已经写了具体的过程,这里不再赘述. 在安装spark的机器上,下载eclipse-java-x86_64版本,将spar ...
Spark第一周
Why Scala 在数据集不是很大的时候,开发人员可以使用python.R.MATLAB等语言在单机上处理数据集.但是在大数据时代,数据集少说都是TB.PB级别,此时便需要分布式地处理.相较于上述语 ...
Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...
通过案例对 spark streaming 透彻理解三板斧之一： spark streaming 另类实验
本期内容 : spark streaming另类在线实验瞬间理解spark streaming本质一．我们最开始将从Spark Streaming入手为何从Spark Streaming切入 ...
Spark源码系列（七）Spark on yarn具体实现
本来不打算写的了,但是真的是闲来无事,整天看美剧也没啥意思.这一章打算讲一下Spark on yarn的实现,1.0.0里面已经是一个stable的版本了,可是1.0.1也出来了,离1.0.0发布才一 ...
Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）论文 | ApacheCN
Spark RDD(Resilient Distributed Datasets)论文概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...
Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs) 并行集合外部 Datasets(数据集) RDD 操作基础传递 Functio ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...

随机推荐

Android模拟器设置竖屏
使用Android模拟器測试自己开发的程序时,有时候会发现屏幕为横屏显示,查看效果非常不方便. 这里记录了一种禁止横屏的方法. 在文件 Mainfest.xml 中,在须要禁止横屏的 activit ...
Codeforces 191 C Fools and Roads (树链拆分)
主题链接~~> 做题情绪:做了HDU 5044后就感觉非常easy了. 解题思路: 先树链剖分一下,把树剖分成链,由于最后全是询问,so~能够线性操作.经过树链剖分后,就会形成很多链,可是每条边 ...
JS类定义方式
// 方法1 对象直接量 var obj1 = { v1 : "", get_v1 : function() { return this.v1; }, set_v1 : funct ...
SecureCRT学习之道：SecureCRT 常用技巧
快捷键: 1. ctrl + a : 移动光标到行首 2. ctrl + e :移动光标到行尾 3. ctrl + d :删除光标之后的一个字符 4. ctrl + w : 删除行首到当前光标所在位 ...
怎样从Hadoop安全模式中进入正常模式
问题: 在Hadoop中,新建一个文件夹,报错了,提示mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot c ...
DESCryptoServiceProvider加密解密的简单使用例子
DES.cs using System; using System.Collections.Generic; using System.Linq; using System.Text; using S ...
Composite Design Pattern 设计模式组合
设计模式组合,它能够更类组合在一类,形成一个树状结构. #include <set> #include <iostream> #include <string> u ...
HTML5学习笔记简明版（11）：新API
HTMLDocument上的扩展 HTML5在DOM Level 2 HTML上扩展了一些HTMLDocument的接口. 这些接口在全部实现了Document接口的元素对象上进行了实现.HTML5在 ...
java大全经典的书面采访
果学网 -专注IT在线www.prismcollege.com 1.面向对象的特征有哪些方面 1.抽象: 抽象就是忽略一个主题中与当前目标无关的那些方面.以便更充分地注意与当前目标有关的方面.抽象并 ...
Red Gate系列之四 SQL Data Compare 10.2.0.885 Edition 数据比较同步工具完全破解+使用教程
原文:Red Gate系列之四 SQL Data Compare 10.2.0.885 Edition 数据比较同步工具完全破解+使用教程 Red Gate系列之四 SQL Data Compare ...

Spark第一个研究笔记1一片 - Spark一个简短的引论

Spark第一个研究笔记1一片 - Spark一个简短的引论的更多相关文章

随机推荐

热门专题