1.resilient distributed dataset (RDD)

The core programming abstraction in Spark, consisting of a fault-tolerant collection of elements that can be operated on in parallel.

2.partition

A subset of the elements in an RDD. Partitions define the unit of parallelism;

Spark processes elements within a partition in sequence and multiple partitions in parallel.

When Spark reads a file from HDFS, it creates a single partition for a single input split.

It returns a single partition for a single block of HDFS (but the split between partitions is on line split, not the block split), unless you have a compressed text file.

In case of compressed file you would get a single partition for a single file (as compressed text files are not splittable).

3.application

A job, sequence of jobs, or a long-running service issuing new commands as needed or an interactive exploration session.

4.application JAR

A JAR containing a Spark application. In some cases you can use an "Uber" JAR containing your application along with its dependencies.

The JAR should never include Hadoop or Spark libraries, however, these will be added at runtime.

5.cluster manager

An external service for acquiring resources on the cluster: Spark Standalone or YARN.

6.job

A parallel computation consisting of multiple tasks that gets spawned in response to a Spark action.

7.task

A unit of work on a partition of a distributed dataset. Also referred to as a stage.

8.driver

Process that represents the application session.

The driver is responsible for converting the application to a directed graph of individual steps to execute on the cluster.

There is one driver per application.

9.executor

A process that serves a Spark application.

An executor runs multiple tasks over its lifetime, and multiple tasks concurrently.

A host may have several Spark executors and there are many hosts running Spark executors for each application.

10.deploy mode

Identifies where the driver process runs.

In client mode, the submitter launches the driver outside of the cluster.

In cluster mode, the framework launches the driver inside the cluster.

Client mode is simpler, but cluster mode allows you to log out after starting a Spark application without terminating the application.

12.Spark Standalone

A model of running Spark applications in which a Master daemon coordinates the efforts of Worker daemons, which run the executors.

13.Spark on YARN

A model of running Spark applications in which the YARN ResourceManager performs the functions of the Spark Master.

The functions of the Workers are performed by the YARN NodeManagers, which run the executors.

14.ApplicationMaster

A YARN role responsible for negotiating resource requests made by the driver and finding a set of containers in which to run the Spark application.

There is one ApplicationMaster per application.

Spark术语的更多相关文章

  1. Spark入门实战系列--1.Spark及其生态圈简介

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .简介 1.1 Spark简介 年6月进入Apache成为孵化项目,8个月后成为Apache ...

  2. 【Todo】【读书笔记】大数据Spark企业级实战版 & Scala学习

    下了这本<大数据Spark企业级实战版>, 另外还有一本<Spark大数据处理:技术.应用与性能优化(全)> 先看前一篇. 根据书里的前言里面,对于阅读顺序的建议.先看最后的S ...

  3. RDD机制实现模型Spark初识

    Spark简介 Spark是基于内存计算的大数据分布式计算框架.Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性.       在Spark中,通过RDD( ...

  4. 【DataMagic】如何在万亿级别规模的数据量上使用Spark

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文首发在云+社区,未经许可,不得转载. 作者:张国鹏 | 腾讯 运营开发工程师 一.前言 Spark作为大数据计算引擎,凭借其快速.稳定. ...

  5. spark学习笔记_1

    简单的讲,Apache Spark是一个快速且通用的集群计算系统. Apache Spark 历史: 2009年由加州伯克利大学的AMP实验室开发,并在2010年开源,13年时成长为Apache旗下大 ...

  6. 通过分区(Partitioning)提高Spark的运行性能

    在Sortable公司,很多数据处理的工作都是使用Spark完成的.在使用Spark的过程中他们发现了一个能够提高Sparkjob性能的一个技巧,也就是修改数据的分区数,本文将举个例子并详细地介绍如何 ...

  7. Spark之 spark简介、生态圈详解

    来源:http://www.cnblogs.com/shishanyuan/p/4700615.html 1.简介 1.1 Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithm ...

  8. spark 图文详解:资源调度和任务调度

    讲说spark的资源调度和任务调度,基本的spark术语,这里不再多说,懂的人都懂了... 按照数字顺序阅读,逐渐深入理解:以下所有截图均为个人上传,不知道为什么总是显示别人的QQ,好尴尬,无所谓啦, ...

  9. 如何在万亿级别规模的数据量上使用Spark

    一.前言 Spark作为大数据计算引擎,凭借其快速.稳定.简易等特点,快速的占领了大数据计算的领域.本文主要为作者在搭建使用计算平台的过程中,对于Spark的理解,希望能给读者一些学习的思路.文章内容 ...

随机推荐

  1. MySQL GTIDs(global transaction identifiers)

    1.如何定义和生成GTIDs 唯一性:在所有主从库都是唯一的,由二元组构成 每个事务和GTIDs之间都有1:1映射 GTID = source_id:transaction_id source_id标 ...

  2. 基于Vue.js的大型报告页项目实现过程及问题总结(二)

    距离上一篇文章过去了二十多天了,期间一直想把第二部分写完,结果在测试过程中遇到了各种坑爹的问题,到今天才算基本完成,也许还有后续,但趁着今天有时间就写出来吧,也算对这个项目的一个总结了 遇到最大问题: ...

  3. HBuilder入门(构建h5+APP)

    if(window.plus) { plusReady(); } else { //plusready事件(自带事件)调用了才可使用h5+API document.addEventListener(& ...

  4. 实战Excel Add-in的三种玩法

    作者:陈希章 发表于 2017年11月26日 前言 这个系列文章应该有一阵子没有更新了,原因是一如既往的多,但是根本所在是我对于某些章节其实还没有完全想好怎么写,尤其是对于Office Add-in这 ...

  5. laravel5.3统计 withCount()方法的使用

    在laravel5.3之后可以使用withCount()这个方法. 注意:一定要是5.3版本之后,5.2和5.1都会报方法未定义 举个栗子: App\Post::withCount('comments ...

  6. 作为函数的mixin

    作为函数的mixin 在一个 mixin 内部定义的变量或 mixin,都调用者可见,因此,它们可以作为它的返回值.如,以下Less代码: .count(@x, @y) {     @sum:(@x ...

  7. K-means 算法

    本学习笔记参考自吴恩达老师机器学习公开课 聚类算法是一种无监督学习算法.k均值算法是其中应用最为广泛的一种,算法接受一个未标记的数据集,然后将数据聚类成不同的组.K均值是一个迭代算法,假设我们想要将数 ...

  8. TCP/IP 协议 ----- 协议栈

    文章是作者对tcp/ip协议族的一些看法,借鉴TCP/IP详解卷一的内容,进行总结归纳,并阐述自己的一些看法. TCP/IP协议栈· : 整个协议栈被分为了四层,每一层协议负责不同的功能: 链路层:负 ...

  9. 在.NET Core类库中使用EF Core迁移数据库到SQL Server

    前言 如果大家刚使用EntityFramework Core作为ORM框架的话,想必都会遇到数据库迁移的一些问题. 起初我是在ASP.NET Core的Web项目中进行的,但后来发现放在此处并不是很合 ...

  10. HDU 1060 Leftmost Digit 基础数论

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1060   这道题运用的是数学方法. 假设S=n^n.两边同时取对数,得到lgS=nlgn.即有S=10 ...