我们兴奋的宣布Databricks缓存的通用可用性，作为统一分析平台一部分的 Databricks 运行时特性，它可以将Spark工作负载的扫描速度提升10倍，并且这种改变无需任何代码修改。

1、在本博客中，我们将介绍这个新特性的两个主要特点：易用性和性能。

2、不同于Spark显示缓存，Databricks缓存能够自动地为用户缓存热输入数据，并且在集群中负载均衡。利用NVMe SSD硬件的先进性能和最先进的压缩技术，它能够将交互式和报告工作的负载性能提升10倍。更重要的是它缓存的数据量是Spark的缓存数量的30多倍。

Spark显式缓存

Spark中一个关键特性是显式缓存。它是一个多功能的工具，因为它可以用于存放任意计算结果（包括输入和中间结果），以便它们可以重复使用。例如，迭代机器学习算法的实现可以选择缓存特征化数据，并且每次迭代将从内存中读取这些数据。

一种特别重要和广泛使用的方式就是缓存扫描操作的结果。通过这种方式可以避免用户低速率地读取远程数据。因此，许多打算重复运行相同或类似工作量的用户决定花费额外的开发时间来手动优化他们的应用程序，通过指示Spark确切缓存什么文件以及何时进行缓存，从而实现“显式缓存”。

对于Spark缓存有如上功能，它还有一些缺点。首先，把数据保存在主内存中时，它需要占用内存空间，而这些空间能够更好用于其他用途，例如，用于Shuffle或者哈希表。其次，当数据缓存在磁盘，读取需要反序列化--该过程太慢以至于无法充分利用NVMe SSD通常所提供的高读取带宽。

最后，由于需要提前并详细指定需要缓存的数据，这个对于那些想交互地导出数据或者创建报告是一个挑战。虽然Spark缓存提供数据工程师所有调优开关，数据科学经常发现推断这些内存太困难了，特别是在多租户的设置中，工程师仍然需要尽快返回结果以保证迭代时间更短。

NVMe SSD面临的调整

固态硬盘或者SSD已经成为标准存储技术。尽管最初以其随机搜索低延迟闻名，但在过去的几年中，SSD也大幅度提供了读写吞吐量。

NVMe接口创建用于克服SATA和ARCI设计的极限，并且允许最大可能使用现代SSD所提供出色的性能。这包括利用基于闪存存储设置的内部并行性和极低读延迟的能力。NVMe使用多种长命令队列以及其他增强功能，允许驱动器高效处理海量并发请求。这种面向并行的架构完美地补充了现代多核CPU和如Spark数据处理系统的并行线。

通过NVMe接口，SSD比低速磁盘驱动器在属性和性能上更加接近主内存。因此它们是存储缓存数据的理想地方。

然而为完全利用NVMe SSD的潜力，仅仅把远程数据复制到本地存储是远远不够。我们在AWS i3实例所进行的实验表明当从本地SSD读取常用文件格式时，它只是使用一部分可用的I/O带宽。

上图显示了在Spark针对EC2 i3实例类型的本地NVMe SSD的I/O带宽利用率。根据图示，现有数据格式不能充分利用I/O带宽，CPU密集解码速度无法跟上SSD的速度。

自适应运行

当设计Databricks缓存时，我们不仅关注于实现优化的读性能，并且关注于创建一种“自适应运行”的方案，该方案无需用户任何参与。该缓存考虑到：

1、自动选择数据缓存----无论何时访问远程文件时，该数据转码副本会立即存放到缓存中

2、替换长时间未使用的数据----当磁盘空间不足时，缓存自动删除最近最少使用的数据

3、负载均衡----缓存的数据均匀地分发到集群的所有节点上，并且自动扩展和/或调整不同节点不均匀使用情况

4、数据安全----在缓存数据通过同样的方式与临时文件保持加密，例如Shuffle文件

5、数据更新----缓存能够自动发现在远程地方文件的增加和删除，并且显示数据最新的状态

从Databricks运行时3.3以来，在AWS i3实例类型中所有集群都预置并默认启用Databricks内存。由于这种实例类型具有较高的写入吞吐量，数据能够转码并保存在缓存中，而无需降低读取远程数据的查询性能。喜欢选择其他类型工作节点的用户可以使用Spark配置来启用缓存（请参考文档以了解更多细节）。

对于那些需预先缓存所需要数据的用户，我们实现了CACHE SELECT命令。它将提供选择部分数据装载到缓存中。用户可以指定垂直（如：选择列）或者水平（如：满足查询条件的行）切片数据保存在缓存中。

性能

为了充分利用NVMe SSD，不是采取直接缓存输入的“原始数据”，而是新功能会自动将数据转换为高度优化新的临时磁盘缓存格式，该功能提供了出色的解码速度，从而获得了更佳的I/O带宽利用率。这种转码是异步操作，从而把数据加载到缓存的查询开销降低到最小。

增强读取性能（在前面所提到的通常在访问远程数据避免高延迟的能力）导致了各种查询速度取得了显著的提升。例如，在如下TPC-DS查询的子集，相对于从AWS S3读取Parquet数据，我们看到在每个简单查询都取得了持续的改进，并且在查询53中速度有5.7倍的提升。

来自于我们私人测试程序的一些客户工作中，我们看到性能有10倍的提升。

对比Spark缓存和Databricks缓存

Spark缓存和Databricks缓存可以搭配使用，事实上，它们之间相得益彰：Spark缓存提供存储任意中间计算结果数据的能力，而Databricks缓存提供了对输入数据提供自动和出色的性能。

在我们的实验中，Databricks缓存相对于Spark缓存的DISK_ONLY读模式达到了4倍的速度。对比MEMORY_ONLY模式，Databricks缓存仍然提供了3倍的加速，而且还保持了较小的内存占用。

Databricks缓存配置

对于运行Databricks运行时3.3+版本的所欲AWS i3实例类型，对于所有Parquet文件缓存选择默认开启，并且缓存功能也可以与Databricks delta无缝协作。

要在其他Azure或AWS实例类型中使用新缓存，在集群配置中需要设置如下配置参数：

 spark.databricks.io.cache.enabled true

 spark.databricks.io.cache.maxDiskUsage "{DISK SPACE PER NODE RESERVED FOR CACHED DATA}"

 spark.databricks.io.cache.maxMetaDataCache "{DISK SPACE PER NODE RESERVED FOR CACHED METADATA}"

结论

Databricks缓存为Databricks用户提供了大量好处--无论是易用性还是查询性能。它可以与Spark缓存进行混合搭配结合，使用最优的工具来完成任务。随着即将更进一步的性能提升和对其他数据格式的支持，Databricks缓存将成为各种工作负载的主要工具。

将来，我们讲发布更多性能提升和扩展支持其他文件格式的功能。

要尝试此新功能，请立即在我们统一分析平台选择一个i3实例类型的集群。

本文翻译原文地址 https://databricks.com/blog/2018/01/09/databricks-cache-boosts-apache-spark-performance.html

如果转载请注明来自 http://www.cnblogs.com/shishanyuan/p/8414582.html

Databricks缓存提升Spark性能--为什么NVMe固态硬盘能够提升10倍缓存性能（原创）的更多相关文章

NVMe固态硬盘工具箱使用说明
https://www.bilibili.com/read/cv562989/ 浦科特NVMe固态硬盘工具箱使用说明数码 2018-6-7 687阅读7点赞3评论浦科特已经推出针对NVMe固态硬盘 ...
一文看懂SATA和NVMe固态硬盘用起来有何区别？
本文摘自:https://www.sohu.com/a/203688929_615464 NVMe固态硬盘正在逐步扩张,而包括三星.东芝在内的大厂并没有停止SATA固态硬盘新品的研发.到底那种固态硬盘 ...
ubuntu 开机进入grub rescue> 解决办法（nvme固态硬盘）
起因: 我是在windows下格式化了ubuntu的盘,然后重新安装ubuntu就出现了这种问题.卸载ubuntu的正确姿势,要去查一下,千万不要直接格式化. 解决方法: 1. 先使用ls命令,找到 ...
使用Apache Spark 对 mysql 调优查询速度提升10倍以上
在这篇文章中我们将讨论如何利用 Apache Spark 来提升 MySQL 的查询性能. 介绍在我的前一篇文章Apache Spark with MySQL 中介绍了如何利用 Apache Spa ...
Web 应用性能提升 10 倍的 10 个建议
转载自http://blog.jobbole.com/94962/ 提升 Web 应用的性能变得越来越重要.线上经济活动的份额持续增长,当前发达世界中 5 % 的经济发生在互联网上(查看下面资源的统计 ...
把WinXP装进内存性能飚升秒杀固态硬盘
现在用户新配置的电脑,内存很少有小于2GB的,配置4GB内存的朋友也有不少.容量如此大的内存,我们在使用电脑的日常操作中绝对用不完.而目前制约系统性能最大的瓶颈就是硬盘的传输速度,所以,这里教你怎么把 ...
M.2接口NVMe协议的固态硬盘读写速度是SATA接口的两倍
原文:https://www.sohu.com/a/203688929_615464 中午走路的时候,同事说的,M 2 nvme接口的更快. 树莓派开发板可以跑linux . ------------ ...
固态硬盘寿命实测让你直观SSD寿命！--转
近年来,高端笔记本及系列上网本越来越多的采用固态硬盘来提升整机性能,尽管众所周知固态硬盘除了在正常的使用中带来更快速度的体验外,还具有零噪音.不怕震动.低功耗等优点,但大家对固态硬盘的寿命问题的担忧 ...
机械硬盘和ssd固态硬盘的原理对比分析
固态硬盘和机械硬盘的区别机械硬盘磁头是不是直接和盘片接触的呢磁盘中有几个盘片机械硬盘的工作原理固态硬盘的寻址方式 SMR叠瓦式真的比PMR优秀吗固态硬盘主控芯片闪存颗粒缓存单元固态 ...

随机推荐

数据挖掘概念与技术15--为快速高维OLAP预计算壳片段
1. 论数据立方体预计算的多种策略的优弊 (1)计算完全立方体:需要耗费大量的存储空间和不切实际的计算时间. (2)计算冰山立方体:优于计算完全立方体,但在某种情况下,依然需要大量的存储空间和计算时间 ...
Asp.net SignalR 让实时通讯变得简单
巡更项目中,需要发送实时消息,以及需要任务开始提醒,于是便有机会接触到SignalR,在使用过程中,发现用SignalR实现通信非常简单,下面我思明将从三个方面分享一下: 一.SignalR是什么 A ...
献给迷惘的Java架构工程师
1. 工程化专题 (团队大于3个人之后,你需要去考虑团队合作,科学管理) 2. 源码分析专题 (好的程序员,一行代码一个设计就能看出来,源码分析带你品味代码,感受架构) 3.高性能及分布式专题 ( ...
JIRA开启时间追踪并为问题记录工作日志
在升级版的JIRA中(4.2or4.3),我们可以使用其记录工作日志的功能.之前研究了很长时间,就是找不到初始预估时间在哪里设置,但是剩余工作时间与耗费时间都可以填写.根据官网的帮助文档也没找到合适的 ...
通过例子理解 k8s 架构 - 每天5分钟玩转 Docker 容器技术（122）
为了帮助大家更好地理解 Kubernetes 架构,我们部署一个应用来演示各个组件之间是如何协作的. 执行命令 kubectl run httpd-app --image=httpd --replic ...
AtCoder Regular Contest 082
我都出了F了……结果并没有出E……atcoder让我差4分上橙是啥意思啊…… C - Together 题意:把每个数加1或减1或不变求最大众数. #include<cstdio> #in ...
poj_2251
Dungeon Master Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 24311 Accepted: 9425 D ...
FineReport父子格实现动态参数注入
"深入学习FineReport后发现其功能及其强大,之前使用存储过程实现的报表完全可以使用FineReport本身的功能实现. 当你需要的表名,查询条件等均未知的时候,使用"动态参 ...
Video Target Tracking Based on Online Learning—深度学习在目标跟踪中的应用
摘要近年来,深度学习方法在物体跟踪领域有不少成功应用,并逐渐在性能上超越传统方法.本文先对现有基于深度学习的目标跟踪算法进行了分类梳理,后续会分篇对各个算法进行详细描述. 看上方给出的3张图片,它们 ...
分布式监控系统--zabbix
1Zabbix简介 Zabbix 是一个企业级的分布式开源监控方案. 2.监控系统架构 C/S架构客户端/服务器端,这种架构适合规模较小,处于同一地域的环境 C/P/S 客户端/代理端/服务器端/, ...

Databricks缓存提升Spark性能--为什么NVMe固态硬盘能够提升10倍缓存性能（原创）