Spark分析之MemoryStore

private case class MemoryEntry(value: Any, size: Long, deserialized: Boolean)

class MemoryStore(blockManager: BlockManager, maxMemory: Long)extends BlockStore(blockManager) {

    private val entries = new LinkedHashMap[BlockId, MemoryEntry](32, 0.75f, true)

    //存

    private def tryToPut(blockId: BlockId, value: Any,size: Long,deserialized: Boolean): ResultWithDroppedBlocks = {

         if (enoughFreeSpace) { //空闲内存是否足以容纳block

            val entry = new MemoryEntry(value, size, deserialized)

            entries.synchronized {

                entries.put(blockId, entry) //将Block放置到内部维护的HashMap中

            }

            //如果是反序列话的就以对象数组方式处理，否则就是以字节数组方式处理

            val valuesOrBytes = if (deserialized) "values" else "bytes"

         }else{//告诉BlockManager内存不足以存下该block，是否将其drop到硬盘中(如果该Block允许Disk存储)

            val droppedBlockStatus = blockManager.dropFromMemory(blockId, data)

         }

    }

    //取：直接从HashMap中根据blockid获取即可

    override def getValues(blockId: BlockId): Option[Iterator[Any]] = {

        val entry = entries.synchronized {

            entries.get(blockId)

        }

        if (entry == null) {

            None

        } else if (entry.deserialized) { //反序列话的就以对象数组方式处理

            Some(entry.value.asInstanceOf[Array[Any]].iterator)

        } else { //序列话的就以字节数组方式处理

            val buffer = entry.value.asInstanceOf[ByteBuffer].duplicate() // Doesn't actually copy data

            Some(blockManager.dataDeserialize(blockId, buffer))

        }

    }

}

总结：

1）内部维护了一个LinkedHashMap来管理所有的block，以blockid作为key将block存储在LinkedHashMap中；

2）在MemoryStore中存放block(tryToPut)时，首先调用ensureFreeSpace()确保空闲内存是否足以容纳该block：

　　足：将该block直接加入到LinkedHashMap中去；

　　不足：通过BlockManager.dropFromMemory将该block写入到disk中

3）MemoryStore将序列化后的字节数组或者反序列化后的java对象数组的block存取在Memory中。

Spark分析之MemoryStore的更多相关文章

使用Spark分析拉勾网招聘信息(一):准备工作
本系列专属github地址:https://github.com/ios122/spark_lagou 前言我觉得如果动笔,就应该努力地把要说的东西表达清楚.今后一段时间,尝试下系列博客文章.简单说 ...
[大数据从入门到放弃系列教程]第一个spark分析程序
[大数据从入门到放弃系列教程]第一个spark分析程序原文链接:http://www.cnblogs.com/blog5277/p/8580007.html 原文作者:博客园--曲高终和寡 **** ...
使用Spark分析拉勾网招聘信息(四): 几个常用的脚本与图片分析结果
概述前一篇文章,已经介绍了BMR的基础用法,再结合Spark和Scala的文档,我想应该是可以开始你的数据分析之路的.这一篇文章,着重进行一些简单的思路上的引导和分析.如果你分析招聘数据时,卡在了某 ...
使用Spark分析拉勾网招聘信息(三): BMR 入门
简述本文,意在以最小的篇幅,来帮助对大数据和Spark感兴趣的小伙伴,能尽快搭建一个可用的Spark开发环境.力求言简意赅.文章,不敢自称BMR的最佳实践,但绝对可以帮助初学者,迅速入门,能够专心于 ...
使用Spark分析拉勾网招聘信息(二): 获取数据
要获取什么样的数据? 我们要获取的数据,是指那些公开的,可以轻易地获取地数据.如果你有完整的数据集,肯定是极好的,但一般都很难通过还算正当的方式轻易获取.单就本系列文章要研究的实时招聘信息来讲,能获取 ...
Spark分析之Job Scheduling Process
经过前面文章的SparkContext.DAGScheduler.TaskScheduler分析,再从总体上了解Spark Job的调度流程 1.SparkContext将job的RDD DAG图提交 ...
Spark分析之TaskScheduler
TaskScheduler概述: TaskScheduler是一个可插拔任务调度接口,通过不同的SchedulerBackend进行任务的调度.主要功能如下: 1.一个TaskScheduler只为一 ...
Spark分析之SparkContext启动过程分析
SparkContext作为整个Spark的入口,不管是spark.sparkstreaming.spark sql都需要首先创建一个SparkContext对象,然后基于这个SparkContext ...
Spark分析之DAGScheduler
DAGScheduler概述:是一个面向Stage层面的调度器: 主要入参有: dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, ...

随机推荐

OC基础:内存(进阶):retain.copy.assign的实现原理分类： ios学习 OC 2015-06-26 17:36 58人阅读评论(0) 收藏
遍历构造器的内存管理 a.遍历构造器方法内部使用autorelease释放对象 b.通过遍历构造器生成的对象.不用释放. 内存的管理总结 1.想占用某个对象的时候,要让它的引用计数器+1(retain ...
eclipse运行报java.lang.OutOfMemoryError: PermGen space解决方法
一.在window下eclipse里面Server挂的是tomcat6,一开始还是以为,tomcat配置的问题,后面发现,配置了tomcat里面的catalina.bat文件,加入 set JAVA_ ...
Linux下Bind error: Address already in use处理
发生这种问题是由于端口被程序绑定而没有释放造成. 可以使用netstat -lp查询当前处于连接的程序以及对应的进程信息. 如果只想查看指定端口,可以输入netstat -lp | grep 9877 ...
Linux shell —— 数组与关联数组
使用 declare -A(declare 的用法请使用 help 进行查看,help declare) 进行声明关联数组变量: $ declare -A fruits_price $ fruits_ ...
pip source
linux版本 sudo vim .pip/pip.conf[global]index-url = http://pypi.douban.com/simple[install]trusted-host ...
转载： Linux 操作系统挂起、休眠、关机相关命令
最近每天的工作都难以在当天结束,而本人又不是那种善于熬夜的人,因此就需要将电脑中的工作文件全部保存,以往都是将所有工作文件保存关机,但是最近发现Linux系统有一个好神奇的命令: 休眠: sudo p ...
软考------(抽象类、接口)　策略设计模式(strategy) 应用
某软件公司现欲开发一款飞机飞行模拟系统,该系统主要模拟不同种类飞机的飞行特征与起飞特征.需要模拟的飞机种类及其特征如表5-1所示. #include <iostream> #include ...
c++野(wild)指针与悬空(dangling)指针
re 1.https://www.cnblogs.com/idorax/p/6475941.html end
Java乱码解决之道
1.常见字符编码 ASCII编码: ASCII,American Standard Code for Information Interchange,是基于拉丁字母的一套电脑编码系统,主要用于显示现代 ...
12 Factor CLI Apps
CLIs are a fantastic way to build products. Unlike web applications, they take a small fraction of t ...

Spark分析之MemoryStore

Spark分析之MemoryStore的更多相关文章

随机推荐

热门专题