Spark检查点机制】的更多相关文章

Spark中对于数据的保存除了持久化操作之外,还提供了一种检查点的机制,检查点(本质是通过将RDD写入Disk做检查点)是为了通过lineage(血统)做容错的辅助,lineage过长会造成容错成本过高,这样就不如在中间阶段做检查点容错,如果之后有节点出现问题而丢失分区,从做检查点的RDD开始重做Lineage,就会减少开销.检查点通过将数据写入到HDFS文件系统实现了RDD的检查点功能. cache和checkpoint的区别: 缓存(cache)把 RDD 计算出来然后放在内存中,但是RDD…
引入 一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新. 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源. 因此,Spark选择记录更新的方式.但是,如果更新粒度太细太多,那么记录更新成本也不低.因此,RDD只支持粗粒度转换,即只记录单个块上执行的单个操作,然后将创建RDD的一系列变换序列(每个RDD都包含了他是如何由其他RDD变换过来的以及如何重建某一块数据的信息…
引入 一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新. 面向大规模数据分析,数据检查点操作成本非常高,须要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同一时候还须要消耗很多其它的存储资源. 因此,Spark选择记录更新的方式.可是,假设更新粒度太细太多,那么记录更新成本也不低.因此.RDD仅仅支持粗粒度转换,即仅仅记录单个块上运行的单个操作,然后将创建RDD的一系列变换序列(每一个RDD都包括了他是怎样由其它RDD变换过来的以及怎样重建…
Oracle的SCN与检查点机制 SCN在Oracle的文档上以多种形式出现,一种是System Change Number,另一种是System Commit Number,在大多数情况下,Systems Change Numbers的定义更为确切. SCN(System Change Number)就是通常所说的系统改变号,是数据库中非常重要的一个数据结构,用以标识数据库在某个确切时刻提交的版本.在事务提交时,它被赋予一个唯一的标示事务的SCN.SCN同时被作为Oracle数据库的内部时钟机…
Spark工作机制 主要模块 调度与任务分配 I/O模块 通信控制模块 容错模块 Shuffle模块 调度层次 应用 作业 Stage Task 调度算法 FIFO FAIR(公平调度) Spark应用执行机制 总览 Spark应用提交后经历了一系列的转换,最后成为Task在每个节点上执行. RDD的Action算子触发Job的提交,提交到Spark中的Job生成RDD DAG 由DAGScheduler转化为Stage Dage 每个Stage中产生相应的Task集合 TaskSchedule…
本文主要简述spark checkpoint机制,快速把握checkpoint机制的来龙去脉,至于源码可以参考我的下一篇文章. 1.Spark core的checkpoint 1)为什么checkpoint? 分布式计算中难免因为网络,存储等原因出现计算失败的情况,RDD中的lineage信息常用来在task失败后重计算使用,为了防止计算失败后从头开始计算造成的大量开销,RDD会checkpoint计算过程的信息,这样作业失败后从checkpoing点重新计算即可,提高效率. 2)什么时候写ch…
Spark存储管理机制 概要 01 存储管理概述 02 RDD持久化 03 Shuffle数据存储 04 广播变量与累加器 01 存储管理概述 思考: RDD,我们可以直接使用而无须关心它的实现细节,RDD是Spark的基础,但是有个问题大家也许会比较关心:RDD所操作的数据究竟在哪里?它是如何存储的. 回顾: 1.1 .存储管理模块架构—从架构上来看   1.1.1     通信层 通信层面采用主从方式实现通信(主从节点间互换消息) 1.1.2 存储层 存储层负责提供接口来存储数据(可把数据存…
Spark工作机制以及API详解 本篇文章将会承接上篇关于如何部署Spark分布式集群的博客,会先对RDD编程中常见的API进行一个整理,接着再结合源代码以及注释详细地解读spark的作业提交流程,调度机制以及shuffle的过程,废话不多说,我们直接开始吧! 1. Spark基本API解读 首先我们写一段简单的进行单词统计的代码,考察其中出现的API,然后做出整理: import org.apache.spark.SparkConf; import org.apache.spark.api.j…
一.应用执行机制 一个应用的生命周期即,用户提交自定义的作业之后,Spark框架进行处理的一系列过程. 在这个过程中,不同的时间段里,应用会被拆分为不同的形态来执行. 1.应用执行过程中的基本组件和形态 Driver: 运行在客户端或者集群中,执行Application的main方法并创建SparkContext,调控整个应用的执行. Application: 用户自定义并提交的Spark程序. Job: 一个Application可以包含多个Job,每个Job由Action操作触发. Stag…
Spark版本:1.1.1 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4135808.html 目录 Web UI 事件日志 网络安全(配置端口) 仅适用于Standalone模式的端口 适用于所有集群管理器的通用端口 现在,Spark支持通过共享秘钥进行认证.启用认证功能可以通过参数spark.authenticate来配置.此参数控制spark通信协议是否使用共享秘钥进行认证.这种认证方式基于握手…
一.Spark心跳概述 前面两节中介绍了Spark RPC的基本知识,以及深入剖析了Spark RPC中一些源码的实现流程. 具体可以看这里: Spark RPC框架源码分析(二)运行时序 Spark RPC框架源码分析(一)简述 这一节我们来看看一个Spark RPC中的运用实例--Spark的心跳机制.当然这次主要还是从代码的角度来看. 我们首先要知道Spark的心跳有什么用.心跳是分布式技术的基础,我们知道在Spark中,是有一个Master和众多的Worker,那么Master怎么知道每…
Spark Shuffle 一.HashShuffle 普通机制:产生磁盘小文件的数量为:M(map task number)*R(reduce task number) 过程: 1.map task处理完数据之后,写到buffer缓冲区,buffer的大小为32k,个数与reduce task个数一致 2. 每个buffer缓存区满32k后会溢写磁盘,每个buffer最终对应一个磁盘小文件 3.reduce task拉取数据 问题: 1.shuffle write,read 频繁 2.占用内存…
虽然默认情况下 RDD 的内容是临时的,但 Spark 提供了在 RDD 中持久化数据的机制.第一次调用动作并计算出 RDD 内容后,RDD 的内容可以存储在集群的内存或磁盘上.这样下一次需要调用依赖该 RDD 的动作时,就不需要从依赖关系中重新计算 RDD,数据可以从缓存分区中直接返回: cached.cache()cached.count()cached.take(10) 在上述代码中, cache 方法调用指示在下次计算 RDD 后,要把 RDD 存储起来.调用count 会导致第一次计算…
Spark中的缓存机制:避免spark每次都重算RDD以及它的所有依赖,cache().persist(). checkpoint(). 1.cache():会被重复使用,但是不能太大的RDD,将其cache()到内存当中,catch()属于 memory only .cache 是每计算出一个要 cache 的 partition 就直接将其 cache 到内存中.缓存完之后,可以在任务监控界面storage里面看到缓存的数据. spark cache (几种缓存方法):https://blo…
Master类位置所在:spark-core_2.11-2.1.0.jar的org.apache.spark.deploy.master下的Master类 /** * driver调度机制原理代码分析Schedule the currently available resources among waiting apps. This method will be called * every time a new app joins or resource availability change…
推测执行机制 推测任务是指对于一个Stage里面拖后腿的Task,会在其他节点的Executor上再次启动这个task,如果其中一个Task实例运行成功则将这个最先完成的Task的计算结果作为最终结果,同时会干掉其他Executor上运行的实例.spark推测式执行默认是关闭的,可通过spark.speculation属性来开启 推测机制的设置 --conf spark.speculation=true--conf spark.speculation.interval=100--conf spa…
Shuffle过程主要分为Shuffle write和Shuffle read两个阶段,2.0版本之后hash shuffle被删除,只保留sort shuffle,下面结合代码分析: 1.ShuffleManager Spark在初始化SparkEnv的时候,会在create()方法里面初始化ShuffleManager // Let the user specify short names for shuffle managers val shortShuffleMgrNames = Map…
Spark版本:1.1.1 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4135905.html 目录 概述 不同应用程序间的资源调度 同一应用程序内的资源调度 Fair调度池 调度池的默认行为 调度池的属性配置 概述 Spark有几个功能用于在作业之间(译者注:作业包含两类:1)不同应用程序所执行的作业:2)同一应用程序内的不同作业所执行的作业.无论哪种作业,Spark都可以完成作业之间的资源调度.)…
spark shuffle 分为两种 1.byPassSortShuffle 发生条件分区数<=200:无排序及聚合操作 主要是直接按照分区号写文件,有多少分区写多少文件 不做任何排序,简单直接 2.baseSortShuffle 发生条件 1.代码中指定聚合 但是没指定排序规则,会按照分区排序,并按照key的hashcode排序,在归并之时 维护两个数组 做聚合及输出 2.代码中指定聚合并指定了排序规则,会按照分区排序,并按照key的指定规则排序(这个过程跟mr的流程一样,不多做叙述) 3.代…
累加器 -- Accumulators 广播变量--Broadcast Variables 思考 回顾 存储管理模块架构--从架构上来看 存储管理模块架构--通信层 存储管理模块架构--存储层 存储管理模块架构--数据块与分区的关系 回顾-RDD控制操作 持久化级别 如何选择持久化级别 缓存淘汰机制 Shuffle数据持久化 广播变量--Broadcast Variables…
spark的持久化机制做的相对隐晦一些,没有一个显示的调用入口. 首先通过rdd.persist(newLevel: StorageLevel)对此rdd的StorageLevel进行赋值,同checkpoint一样,本身没有进行之久化操作.真正进行持久化操作实在之后的第一个action 中通过iterator方法进行调用: final def iterator(split: Partition, context: TaskContext): Iterator[T] = { if (storag…
首先rdd.checkpoint()本身并没有执行任何的写操作,只是做checkpointDir是否为空,然后生成一个ReliableRDDCheckpointData对象checkpointData,这个对象完成checkpoint的大部分工作. /** * 只是生成了一个ReliableRDDCheckpointData的对象,并没有具体的实质操作 * Mark this RDD for checkpointing. It will be saved to a file inside the…
本期内容: 1. Spark Streaming Job架构与运行机制 2. Spark Streaming 容错架构与运行机制 事实上时间是不存在的,是由人的感官系统感觉时间的存在而已,是一种虚幻的存在,任何时候宇宙中的事情一直在发生着的. Spark Streaming好比时间,一直遵循其运行机制和架构在不停的在运行,无论你写多或者少的应用程序都跳不出这个范围. import org.apache.spark.SparkConf import org.apache.spark.streami…
spark是迭代式的内存计算框架,具有很好的高可用性.sparkStreaming作为其模块之一,常被用于进行实时的流式计算.实时的流式处理系统必须是7*24运行的,同时可以从各种各样的系统错误中恢复. 在实际使用中,容错和数据无丢失显得尤为重要.最近看了官网和一些博文,整理了一下对Spark Streaming的容错和数据无丢失机制. checkPoint机制可保证其容错性.spark中的WAL用来改进恢复机制,保证数据的无丢失. checkPoint机制介绍 Spark Streaming需…
文章目录 检查点机制 驱动器程序容错 工作节点容错 接收器容错 处理保证 检查点机制 Metadata checkpointing -- 将定义流计算的信息存入容错的系统如HDFS. Data checkpointing -- 将产生的RDDs存入可靠的存储空间.代码实现如下图 val sparkContext = new SparkContext(new SparkConf()) val ssc = new StreamingText(sparkContext,duration) ssc.ch…
本节内容 · spark底层执行机制 · 细说RDD构建过程 · Job Stage的划分算法 · Task最佳计算位置算法 一.spark底层执行机制 对于Spark底层的运行原理,找到了一副很好的图,先贴上 客户端提交应用后,spark是如何执行的要有一个整体的概念,做到心中有数,先整体把握,才能更好的分模块开垦细节,废话不多说,先来看该图如何更好的理解. 1)提交前的联系 Worker向Master或则ResourceManager汇报自己有哪些资源(内存.CPU.磁盘空间.网络等),Ma…
一  基本术语 Application:  基于Spark的用用户程序,包含了Driver程序和集群上的Executor. Driver Program: 运行行main函数并且新建SparkContext的程序. Cluster Manager: 在集群上获取资源的外部服务(例如:standalone,Mesos,Yarn ). Worker Node:集群中任何可以运行行应用用代码的节点. Executor: 是在一一个Worker Node上为某应用用启动的一一个进程,该进程负责运行行任务…
 RDD的检查点 首先,要清楚.为什么spark要引入检查点机制?引入RDD的检查点?  答:如果缓存丢失了,则需要重新计算.如果计算特别复杂或者计算耗时特别多,那么缓存丢失对于整个Job的影响是不容忽视的.为了避免缓存丢失重新计算带来的开销,Spark又引入检查点机制. RDD的缓存能够在第一次计算完成后,将计算结果保存到内存.本地文件系统或者Tachyon(分布式内存文件系统)中.通过缓存,Spark避免了RDD上的重复计算,能够极大地提升计算速度.但是,如果缓存丢失了,则需要重新计算.如果…
随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据 的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的需求.目前对大数据的分析工具,首选的是Hadoop/Yarn平台,但目前对大数据的实时分析工具,业界公认最佳为Spark.Spark是基于内存计算的大数据并行计算框架,Spark目前是Apache软件基金会旗下,顶级的开源项目,Spark提出的DAG作为MapReduce的替代方案,兼容HDFS.H…