6.RDD持久性
RDD持久性
1
Why Apache Spark
2
关于Apache Spark
3
如何安装Apache Spark
4
Apache Spark的工作原理
5
spark弹性分布式数据集
6
RDD持久性
7
spark共享变量
8
Spark SQL
9
Spark Streaming
原文链接:http://blogxinxiucan.sh1.newtouch.com/2017/07/23/RDD%E6%8C%81%E4%B9%85%E6%80%A7/
Apache Spark的主要功能之一就是在集群内存中持久/缓存RDD。这加速了迭代计算。
下表显示了Spark的各种选项
存储级别 | 目的 |
---|---|
MEMORY_ONLY(默认级别) | 此选项将RDD存储在可用的集群存储器中,作为反序列化的Java对象。如果没有足够的集群内存,某些分区可能不会被缓存。这些分区将根据需要在飞行中重新计算。 |
MEMORY_AND_DISK | 此选项将RDD存储为反序列化的Java对象。如果RDD不适合集群内存,则将这些分区存储在磁盘上,并根据需要读取它们。 |
MEMORY_ONLY_SER | 此选项将RDD存储为序列化的Java对象(每个分区一个字节数组)。这是更多的CPU密集型,但节省内存,因为它更节省空间。某些分区可能不被缓存。这些将根据需要在飞行中重新计算。 |
MEMORY_ONLY_DISK_SER | 此选项与上述相同,只是当内存不足时使用该磁盘。 |
DISC_ONLY | 此选项仅将RDD存储在磁盘上 |
MEMORY_ONLY_2,MEMORY_AND_DISK_2等 | 与其他级别相同,但分区在2个从属节点上进行复制 |
可以通过RDD上的persist()操作访问上述存储级别。cache()操作是指定MEMORY_ONLY选项的一种便捷方式
有关持久性选项的更多详细信息,请参阅:
http://spark.apache.org/docs/latest/programming-guide.html#rdd-persistence
Spark使用最近最少使用(LRU)算法来删除旧的,未使用的缓存的RDD以回收内存。它还提供了一个方便的unpersist()操作来强制删除缓存/持久化的RDD。
公众号:it全能程序猿
6.RDD持久性的更多相关文章
- spark概论,补充
基本概念 RDD spark最大的亮点是提出RDD(Resilient Distributed Dataset)的概念,也就是可伸缩的分布式数据集合,本身只读,可恢复.spark本身不做物理储存,通过 ...
- 9.Spark Streaming
Spark Streaming 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性 ...
- 7.spark共享变量
spark共享变量 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性分布式数据集 ...
- 8.Spark SQL
Spark SQL 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性分布式数据集 ...
- 5.spark弹性分布式数据集
弹性分布式数据集 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性分布式数据集 ...
- 4.Apache Spark的工作原理
Apache Spark的工作原理 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark ...
- 3.如何安装Apache Spark
如何安装Apache Spark 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹 ...
- 1.Why Apache Spark?
Why Apache Spark? 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark ...
- 2.关于Apache Spark
关于Apache Spark 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性分 ...
随机推荐
- string services
string通用字符串操作: re,正则表达式 difflib,比较序列 stringIO:以文件的方式来读和写字符串 CstringIO:更快捷的stringIO版本 textwrap:文本包装和填 ...
- CSS常用Hack集合(adding)
1> IE9 and IE10 @media screen and (min-width: 0\0) { .p-form input.p-value[type="checkbox&qu ...
- React Native 仿天猫物流跟踪时间轴
最近心血来潮开始学习ReactNative,正好最近有一个项目可能会用到时间轴,页面原型类似于天猫的物流跟踪,如下图 分析之后决定使用ListView来实现,左边的时间轴则使用Art来绘制. 分析左边 ...
- ThreadLocal经典分页
package com.netease.live.admin.util; import com.netease.live.common.util.Constant; /** * * @author b ...
- AngularJS模块
方式一: <body ng-app="myApp"> <div ng-controller="myCtrl1"> <h1>{ ...
- eclipse 导入git库 Android工程
1. 导入git库 1.1 从git库 clone 代码 在file->import中选中Git 目录下的Projects from Git 点击Next 选择 URL 点击Next 输入URL ...
- Spring Security 概念基础 验证流程
Spring Security 概念基础 验证流程 认证&授权 认证:确定是否为合法用户 授权:分配角色权限(分配角色,分配资源) 认证管理器(Authentication Manager) ...
- 第三章:3.3 post 请求
1. 在 from表单中将 属性 methtod="post‘ 改变成post 2. 访问主页地址:http://localhost:8000/index 3. 以上出现的错误. 查资料发现 ...
- 总结两种动态代理jdk代理和cglib代理
动态代理 上篇文章讲了什么是代理模式,为什么用代理模式,从静态代理过渡到动态代理. 这里再简单总结一下 什么是代理模式,给某个对象提供一个代理对象,并由代理对象控制对于原对象的访问,即客户不直接操控原 ...
- maven工程中pom.xml的错误
更新maven工程,出现如下错误信息. Could not calculate build plan: Failure to transfer org.apache.maven.plugins:mav ...