阿里大数据云原生化实践，EMR Spark on ACK 产品介绍

开源大数据社区 & 阿里云 EMR 系列直播第六期

主题：EMR spark on ACK 产品演示及最佳实践

讲师：石磊，阿里云 EMR 团队技术专家

内容框架：

云原生化挑战及阿里实践
Spark 容器化方案
产品介绍和演示

一、云原生化挑战及阿里实践

大数据技术发展趋势

云原生化面临挑战

计算与存储分离

如何构建以对象存储为底座的 HCFS 文件系统

完全兼容现有的 HDFS
性能对标 HDFS，成本降低

shuffle 存算分离

如何解决 ACK 混合异构机型

异构机型没有本地盘
社区 [Spark-25299] 讨论，支持 Spark 动态资源，成为业界共识

缓存方案

如何有效支持跨机房、跨专线混合云

需要在容器内支持缓存系统

ACK 调度

如何解决调度性能瓶颈

性能对标 Yarn
多级队列管理

其他

错峰调度
Yarnon ACK 节点资源相互感知

阿里实践 - EMR on ACK

整体方案介绍

通过数据开发集群/调度平台提交到不同的执行平台
错峰调度，根据业务高峰低峰策略调整
云原生数据湖架构，ACK 弹性扩缩容能力强
通过专线，云上云下混合调度
ACK 管理异构机型集群，灵活性好

二、Spark 容器化方案

方案介绍

RSS Q&A

1、为什么需要 Remote Shuffle Service？

RSS 使得 Spark 作业不需要 Executor Pod 挂载云盘。挂载云盘非常不利于扩展性和大规模的生产实践。
云盘的大小无法事前确定，大了浪费空间，小了 Shuffle 会失败。RSS 专门为存储计算分离场景设计。
Executor 将 shuffle 数据写入了 RSS 系统，RSS 系统来负责管理 shuffle 数据，Executor 空闲后即可以回收。[SPARK-25299]
可以完美支持动态资源，避免数据倾斜的长尾任务拖住 Executor 资源不能释放。

2、RSS 性能如何，成本如何，扩展性如何？

RSS 对于 shuffle 有很深的优化，专门为存储与计算分离场景、K8s 弹性场景而设计。
针对 Shufflefetch 阶段，可以将 reduce 阶段的随机读变为顺序读，大大提升了作业的稳定性和性能。
可以直接利用原有 K8s 集群中的磁盘进行部署，不需要加多余的云盘来进行 shuffle。性价比非常高，部署方式灵活。

Spark Shuffle

产生 numMapper * numReducer 个 block
顺序写、随机读
写时 Spill
单副本，丢数据需 stage 重算

EMR Remote Shuffle Service

追加写、顺序读
无写时 Spill
两副本；副本复制到内存后即完成
副本之间通过内网备份，无需公网带宽

RSS TeraSort Benchmark

备注说明：以10T Terasort 为例，shuffle 量压缩后大约 5.6T。可以看出该量级的作业在 RSS 场景下，由于 shuffle read 变为顺序读，性能会有大幅提升。

Spark on ECI 效果

Summary

原文链接
本文为阿里云原创内容，未经允许不得转载。

阿里大数据云原生化实践，EMR Spark on ACK 产品介绍的更多相关文章

阿里大数据产品Dataphin上线公共云，将助力更多企业构建数据中台
日前,由阿里数据打造的智能数据构建与管理Dataphin,重磅上线阿里云-公共云,开启智能研发版本的公共云公测!在此之前,Dataphin以独立部署方式输出并服务线下客户,已助力多家大型客户高效自动化 ...
揭秘日活千万腾讯会议全量云原生化上TKE技术实践
腾讯会议,一款联合国都Pick的线上会议解决方案,提供完美会议品质和灵活协作空间,广泛应用在政府.医疗.教育.企业等各个行业.大家从文章8天扩容100万核,腾讯会议是如何做到的?都知道腾讯会议背后的计 ...
DataPipeline在大数据平台的数据流实践
文 | 吕鹏 DataPipeline架构师进入大数据时代,实时作业有着越来越重要的地位.本文将从以下几个部分进行讲解DataPipeline在大数据平台的实时数据流实践. 一.企业级数据面临的主要 ...
"大中台、小前台”新架构下，阿里大数据接下来怎么玩？ (2016-01-05 11:39:50)
"大中台.小前台”新架构下,阿里大数据接下来怎么玩?_炬鼎力_新浪博客 http://blog.sina.com.cn/s/blog_1427354e00102vzyq.html " ...
国内物联网平台（7）：Ablecloud物联网自助开发和大数据云平台
国内物联网平台(7)——Ablecloud物联网自助开发和大数据云平台马智平台定位面向IoT硬件厂商,提供设备联网与管理.远程查看控制.定制化云端功能开发.海量硬件数据存储与分析等基础设施,加速 ...
阿里大数据竞赛season1 总结
关于样本测试集和训练集数量上,一般是选择训练集数量不小于测试集,也就是说训练集选取6k可能还不够,大家可以多尝试得到更好的效果: 2. 有人提出归一化方面可能有问题,大家可以查查其他的归一化方法,但是 ...
开源大数据技术专场（上午）:Spark、HBase、JStorm应用与实践
16日上午9点,2016云栖大会“开源大数据技术专场” (全天)在阿里云技术专家封神的主持下开启.通过封神了解到,在上午的专场中,阿里云高级技术专家无谓.阿里云技术专家封神.阿里巴巴中间件技术部高级技 ...
国内物联网平台初探（七） ——Ablecloud物联网自助开发和大数据云平台
平台定位面向IoT硬件厂商,提供设备联网与管理.远程查看控制.定制化云端功能开发.海量硬件数据存储与分析等基础设施,加速硬件实现联网智能化. 架构服务云端服务一体化开发引擎业内独创一体化开发引 ...
【ArchSummit干货分享】个推大数据金融风控算法实践
作者:个推高级数据工程师晓骏众所周知,金融是数据化程度最高的行业之一,也是人工智能和大数据技术重要的应用领域.随着大数据收集.存储.分析和模型技术日益成熟,大数据技术逐渐应用到金融风控的各个环节. ...
Kona JDK 在腾讯大数据领域内的实践与发展
导语 | 近日,云+社区技术沙龙“腾讯开源技术”圆满落幕.本次沙龙邀请了多位腾讯技术专家,深度揭秘了腾讯开源项目TencentOS tiny.TubeMQ.Kona JDK.TARS以及Medical ...

随机推荐

公开的Webservice集锦
备注:以下所有的来自互联网,版权归原作者所有股票行情数据 WEB 服务(支持香港.深圳.上海基金.债券和股票:支持多股票同时查询) Endpoint: http://webservice.webx ...
Spring Boot学习日记1
今天了解了springboot是什么,起源和历史 Spring是一个开源框架,2003 年兴起的一个轻量级的Java 开发框架,作者:Rod Johnson . Spring是为了解决企业级应用开发的 ...
pandas 自动化处理Excel数据
需求: 如下一份这样的Excel数据现在需要把学生的学号.姓名分离出来到单独的一列 ,将测验.讨论.成绩三列转换成数值,并把讨论这列的"-"转换成 0 显示最后把处理好的内 ...
css实现多余文字隐藏，用省略号代替
.txt{ overflow: hidden; //溢出内容隐藏 white-space: nowrap; //强制文本在一行内显示 text-overflow: ellipsis; //当对象内文本 ...
[ROS串口通信]Serial库读入结构体
本文介绍使用c++中Serial库读入结构体: //例如,结构体定义如下: typedef struct __attribute__((packed)) { uint16_t team; /* 本身队 ...
KingbaseES 数据库中不同user的视图访问授权
前言本文的目的是实现u1用户访问ud用户下的视图权限. 测试登录system用户并创建schema,user,并授权schema的有关权限给ud用户 TEST=# select current_u ...
KingbaseES V8R6 集群运维系列--archive_cleanup_command参数应用
案例说明: 参数archive_cleanup_command可以配置在kingbase.conf文件中,用于备库清理不在需要的归档日志,参数详细说明见下图: https://postgresql ...
第一次画pcb学到的知识
第一次画pcb学到的知识 1. Typec (6针) 其中的CC1.CC2引脚为快充协议的引脚,用不到的时候串个5.1K的电阻接地s 2. AMS117降压电路 AMS1117芯片的输入电压都要一个1 ...
使用site-maven-plugin在github上搭建公有仓库
目录简介前期准备在maven中配置GitHub权限配置deploy-plugin 配置site-maven-plugin 怎么使用这个共享的项目总结简介 Maven是我们在开发java程序 ...
C# PropertyChanged 事件-数据绑定
在.NET平台上,数据绑定是一项令人十分愉快的技术.利用数据绑定能减少代码,简化控制逻辑. 通常,可以将某个对象的一个属性绑定到一个可视化的控件上,当属性值改变时,控件上的显示数据也随之发生变化.要实 ...

阿里大数据云原生化实践，EMR Spark on ACK 产品介绍

开源大数据社区 & 阿里云 EMR 系列直播 第六期

一、云原生化挑战及阿里实践

大数据技术发展趋势

云原生化面临挑战

计算与存储分离

shuffle 存算分离

缓存方案

ACK 调度

其他

阿里实践 - EMR on ACK

整体方案介绍

二、Spark 容器化方案

方案介绍

RSS Q&A

1、为什么需要 Remote Shuffle Service？

2、RSS 性能如何，成本如何，扩展性如何？

Spark Shuffle

EMR Remote Shuffle Service

RSS TeraSort Benchmark

Spark on ECI 效果

Summary

阿里大数据云原生化实践，EMR Spark on ACK 产品介绍的更多相关文章

随机推荐

热门专题

开源大数据社区 & 阿里云 EMR 系列直播第六期