Spark源码学习1.5——BlockManager.scala

一、BlockResult类

该类用来表示返回的匹配的block及其相关的参数。共有三个参数：

data：Iterator [Any]。

readMethod： DataReadMethod.Value。

bytes： Long。

实例化InputMetrics类。

二、BlockManager类

关系的参数有executorId，blockManagerMaster，mapOutPutTracker等。关系的类有ShuffleBlockManager类，DiskBlockManager类，ConnectionManager类，MemoryStore类，DiskStore类等。包含以下操作：

1、检查broadcast，shuffle，rdds，shuffleSpill存储时是否被压缩。

2、定义其slaveActor。

3、建立一个BlockManagerSlaveActor(this, mapOutputTracker)。

4、一个lazy val compressionCodec，压缩包解码器。lazy表示在调用它时才实例化一个解码器，主要是针对用户自定义的jar包。

包含的方法有：

1、initialize()：初始化操作，主要是向master（BlockManagerMaster）注册BlockManager，并启动BlockManagerWorker。

2、reportAllBlocks()：再次将所有的blocks汇报给BlockManager。这个方法强调所有的blocks必须都能在BlockManager的管理下，因为可能会出现各种因素，如slave需要重新注册、进程冲突导致block变化等，让blocks产生变化。

3、reregister()：重新注册BlockManager，这个方法主要是在心跳进程发现BlockManager没有注册时调用。这个方法的调用无需在锁状态下执行。

4、asyncReregister()：异步地重新向master注册BlockManager。

5、waitForAsyncReregister()：如果有其他的异步重注册进程，则等待。

6、getStatus(block Id: BlockId)：根据blockId获取block的信息。

7、getMatchingBlockIds()：指定过滤器对所有的blocks进行过滤。

8、reportBlockStatus()：向master报告block所在存储位置的状况，这个信息不仅反映了block当前的状态，还用于更新block的信息。但是这个存储状态的信息，如磁盘、内存、cache存储等等，并不一定是block的Information中所期望的存储信息，例如MEMORY_AND_DISK等。

9、tryToReportBlockStatus()：实际上是发送UpdateBlockInfo信息，返回master返回的信息。block记录正确则返回true，slave需要重新注册则返回false。信息包括storageLevel, inMemSize, inTachyonSize, onDiskSize等

10、getCurrentBlockStatus()：返回指定block所在存储块的最新信息。特别的，当block从内存移到磁盘时，更改其存储级别并更新内存和磁盘大小。

11、getLocationBlockIds()：获取一系列block的位置。

12、getLocalFromDisk()：直接从磁盘获取block，主要是用来获取shuffle block的。

13、getLocal()：从本地block manager获取block。

14、getLocakBytes()：以序列化字节流的形式从本地block manager获取block。

15、doGetLocal()：getLocalBytes()的实际操作函数，用来获取block并以序列化形式输出。需要处理的问题主要是同步问题，既要保证block仍然在指定的存储位置，也要保证block没有处于写的锁状态（尽管如此，Spark提示它仍然存在一定的隐患，block被移除）。

16、getRemote()：从远程block manager获取block。

17、getRemoteBytes()：同getLocalBytes()。

18、doGetRemote()：与doGetLocal()类似。

19、get()：从block manager获取block，无论本地还是远程。

20、getMultiple()：根据BlockManagerIds获取一系列的block。

21、putIterator()：在Iterator中加入block的信息。

22、getDiskWriter()：创建一个能够直接将数据写到磁盘的writer，block通过文件名来指定写入的文件，这个方法通常用来在shuffle之后写入shuffle的输出文件。

23、putArray()：在block manager中写入新的block，block的值是Array数组。

24、putBytes()：在block manager中写入新的block，block的值是序列化的字符流。这个方法和putArray都是使用doPut()来实际写入信息到block manager。

25、doPut()：将给定的block根据给定的存储等级（内存还是磁盘）写入相应的block存储区，必要时复制其中的数据。实际有效的存储级依赖于block最终所挂载的区域，因此调用者可以指定存储级，而不是依靠最初由用户指定的存储级来确定（用户可能存在错误或恶意行为）。doPut()需要考虑的问题包括：block信息的写入，block的值的处理，block向block manager和master的注册，block存储的位置（先内存，后实际考虑），报告block所在存储区的信息，block manager信息的更新等。

26、replicate()：复制block到另外的节点上。

27、putSingle()：在block manager中写入新的block，block的值是一个对象。调用的方法是putIterator。

28、dropFromMemory()：将内存中的block溢出到磁盘中。往往在内存达到限制时调用。

29、removeRdd()：将指定RDD的block全部移除，返回移除的block的数量。

30、removeBroadcast()：将指定的broadcast的block全部移除。这个方法和removeRdd都是循环移除自身的所有block，移除的方法为removeBlock()。

31、removeBlock()：移除内存和磁盘中的指定block。同时需要告知master并更新block信息reportBlockStatuses。

32、dropOldNonBroadcastBlocks()和dropOldBroadcastBlocks()：移除旧的没有的/旧的broadcast block。

33、dropOldBlocks()：移除没有用的block。

34、shouldCompress()：判断是否经过压缩，共有四种压缩包——shuffle，broadcast，rdds，shuffleSpill。

35、wrapForCompression()：有两种加载方式，根据参数决定是压缩输入流还是压缩输出流。

36、dataSerializeStram()：序列化为流。

37、dataSerialize()：序列化为字符缓存。

38、dateDeserialize()：反序列化字符缓存为迭代的参数值，并且在末尾对该值进行处理。在对block进行处理的时候，如果block是shuffle的block，也就是会传递给reduce进行处理的block时，需要进行压缩（lazy的）。

39、stop()：清除各种类的实例化对象。

三、BlockManager对象

针对blockId进行了注册、处理等操作。

Spark源码学习1.5——BlockManager.scala的更多相关文章

Spark源码学习1.2——TaskSchedulerImpl.scala
许久没有写博客了,没有太多时间,最近陆续将Spark源码的一些阅读笔记传上,接下来要修改Spark源码了. 这个类继承于TaskScheduler类,重载了TaskScheduler中的大部分方法,是 ...
Spark源码学习1.1——DAGScheduler.scala
本文以Spark1.1.0版本为基础. 经过前一段时间的学习,基本上能够对Spark的工作流程有一个了解,但是具体的细节还是需要阅读源码,而且后续的科研过程中也肯定要修改源码的,所以最近开始Spark ...
Spark源码学习1.6——Executor.scala
Executor.scala 一.Executor类首先判断本地性,获取slaves的host name(不是IP或者host: port),匹配运行环境为集群或者本地.如果不是本地执行,需要启动一 ...
Spark源码学习1.8——ShuffleBlockManager.scala
shuffleBlockManager继承于Logging,参数为blockManager和shuffleManager.shuffle文件有三个特性:shuffleId,整个shuffle stag ...
Spark源码学习1.4——MapOutputTracker.scala
相关类:MapOutputTrackerMessage,GetMapOutputStatuses extends MapPutputTrackerMessage,StopMapOutputTracke ...
Spark源码学习1.3——TaskSetManager.scala
TaskSetManager.scala TaskSet是指一系列被提交的task,一般是代表特定的stage中丢失的partition.TaskSetManager通过一个TaskScheduler ...
Spark源码学习1.7——Master.scala
master第一步是加载系统定义的环境变量,如worker的超时时间.系统保留的Application数目等:第二步,加载worker的信息,地址.id等:第三步,加载Application的信息, ...
Spark源码学习2
转自:http://www.cnblogs.com/hseagle/p/3673123.html 在源码阅读时,需要重点把握以下两大主线. 静态view 即 RDD, transformation a ...
spark源码学习-withScope
withScope是最近的发现版中新增加的一个模块,它是用来做DAG可视化的(DAG visualization on SparkUI) 以前的sparkUI中只有stage的执行情况,也就是说我们 ...

随机推荐

IDEA建立---- java web项目
1.新建一个javaweb项目 2.给项目命名 3.建立完的项目结构大概是这样(在web 下新建两个目录lib 和 classes) 4.找到project Structure---------&g ...
springmvc的foward和redirect跳转简单解析
Spring MVC 中,我们在返回逻辑视图时,框架会通过 viewResolver 来解析得到具体的 View,然后向浏览器渲染.假设逻辑视图名为 hello,通过配置,我们配置某个 ViewRe ...
在Spring里进行单元测试Junit
搭建Spring环境(自行搭建): @RunWith注解指定使用springJunit的测试运行器 @ContextConfiguration注解指定测试用的spring配置文件的位置 import ...
解决driver.findElement(By)运行到此处报null指针问题
1.由于自动化页面上的元素定位太多,主要是通过By来定位,而By提供了id,xpath,name差不多就可以定位到元素可以使用一个配置文件存储页面上的定位By值,然后从配置文件获取by值,行程by方 ...
对HTML5校验自定义验证信息
在HTML5中,表单可以定义一个属性required来触发默认的校验机制,比如: <input type="text" required /> 弹出的错误提示默认为英文 ...
Tomcat version 7.0 only supports J2EE 1.2, 1.3, 1.4, and Java EE 5 and 6 Web modules
解决方案: 找到如下文件将"jst.web"的version改低一些
django服务器配置
服务器配置是Ubuntu14.04 64位OS ubuntu14.04默认是安装好了python2.7版本不用自己安装了. 先更新下源 sudo apt-get update 第一步先安装pip su ...
YY前端课程-自习
1. 默认的浏览器字体 100% = 1em =1rem =16px =12pt em继承父元素,rem只继承html根元素 2. text-align水平对齐影响一个元素中文本的水平对齐方式,控 ...
Xcode模拟器不显示SDK版本,反而显示设备ID的解决办法
今天在应用程序中修改了Xcode app 的名称,结果导致Xcode模拟器不显示SDK版本,反而显示设备ID了,感觉特别的忧伤......如图: 进到Xcode->window->Devi ...
C++中的字面值指定类型
C++中只有内置类型存在字面值,没有类(class)类型字面值.例如:0是int类型的字面值,3.14159是double类型的字面值. 字面值类型很多整型浮点字面值 20 ...

Spark源码学习1.5——BlockManager.scala

Spark源码学习1.5——BlockManager.scala的更多相关文章

随机推荐

热门专题