Spark Shuffle机制

Spark Shuffle

　　一.HashShuffle

　　　　普通机制：产生磁盘小文件的数量为：M(map task number)*R(reduce task number)

　　　　过程：

　　　　　　1.map task处理完数据之后，写到buffer缓冲区，buffer的大小为32k，个数与reduce task个数一致

　　　　　　2. 每个buffer缓存区满32k后会溢写磁盘，每个buffer最终对应一个磁盘小文件

　　　　　　3.reduce task拉取数据

　　　　问题：

　　　　　　1.shuffle write，read 频繁

　　　　　　2.占用内存过多，容易造成gc以及出现OOM

　　　　　　3.磁盘小文件多，会造成频繁I/O，效率降低

　　　　合并机制：产生磁盘小文件的数量为：C(core number)*R(reduce task number)

　　　　过程：

　　　　　　1.map task处理完数据之后，写到buffer缓冲区，buffer的大小为32k，个数与reduce task个数一致

　　　　　　2.Executor中每个core中的task共用一份buffer缓冲区

　　　　　　3.每个buffer缓存区满32k后会溢写磁盘，每个buffer最终对应一个磁盘小文件

　　　　　　4.reduce task拉取数据

　　二.SortShuffle

　　　　普通机制：产生磁盘小文件数量：2*M(map task number)

　　　　步骤：

　　　　　　1.map task处理完数据之后，首先写入一个5M的数据结构

　　　　　　2.sortShuffle有不定期估算机制，来估算这个内存结构的大小，当估算超过真实的大小，会申请内存：2*估算大小-当前大小

　　　　　　3.申请到内存继续写入内存数据结构，申请不到会溢写磁盘

　　　　　　4.溢写磁盘过程中有排序，每批1万条数据溢写，最终对应两个磁盘文件：一个索引文件，一个数据文件

　　　　　　5.reduce task拉取数据首先读取索引文件，再拉取数据

　　　　bypass机制：产生磁盘小文件数量：2*M(map task number)

　　　　步骤：

　　　　　　1.map task处理完数据之后，首先写入一个5M的数据结构

　　　　　　2.sortShuffle有不定期估算机制，来估算这个内存结构的大小，当估算超过真实的大小，会申请内存：2*估算大小-当前大小

　　　　　　3.申请到内存继续写入内存数据结构，申请不到会溢写磁盘

　　　　　　4.溢写磁盘过程中没有排序，每批1万条数据溢写，最终对应两个磁盘文件：一个索引文件，一个数据文件

　　　　　　5.reduce task拉取数据首先读取索引文件，再拉取数据

Spark Shuffle机制的更多相关文章

Spark Shuffle机制详细源码解析
Shuffle过程主要分为Shuffle write和Shuffle read两个阶段,2.0版本之后hash shuffle被删除,只保留sort shuffle,下面结合代码分析: 1.Shuff ...
spark shuffle 机制
spark shuffle 分为两种 1.byPassSortShuffle 发生条件分区数<=200:无排序及聚合操作主要是直接按照分区号写文件,有多少分区写多少文件不做任何排序,简单直接 ...
【Spark】Spark的Shuffle机制
MapReduce中的Shuffle 在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性 ...
【Spark篇】---Spark中Shuffle机制，SparkShuffle和SortShuffle
一.前述 Spark中Shuffle的机制可以分为HashShuffle,SortShuffle. SparkShuffle概念 reduceByKey会将上一个RDD中的每一个key对应的所有val ...
spark的shuffle机制
对于大数据计算框架而言,Shuffle阶段的设计优劣是决定性能好坏的关键因素之一.本文将介绍目前Spark的shuffle实现,并将之与MapReduce进行简单对比.本文的介绍顺序是:shuffle ...
Spark Shuffle原理、Shuffle操作问题解决和参数调优
摘要: 1 shuffle原理 1.1 mapreduce的shuffle原理 1.1.1 map task端操作 1.1.2 reduce task端操作 1.2 spark现在的SortShuff ...
Spark Shuffle数据处理过程与部分调优（源码阅读七）
shuffle...相当重要,为什么咩,因为shuffle的性能优劣直接决定了整个计算引擎的性能和吞吐量.相比于Hadoop的MapReduce,可以看到Spark提供多种计算结果处理方式,对shuf ...
【Spark学习】Apache Spark安全机制
Spark版本:1.1.1 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4135808.html 目录 W ...
Spark工作机制简述
Spark工作机制主要模块调度与任务分配 I/O模块通信控制模块容错模块 Shuffle模块调度层次应用作业 Stage Task 调度算法 FIFO FAIR(公平调度) Spark应 ...

随机推荐

mysql 导入 CSV文件命令行 ERROR 13 (HY000): Can't get stat of
一定要查看好CSV字段结构是否和文件的表结构字段一致 load data local infile 'F:/MySqlData/test1.csv' --CSV文件存放路径 into table st ...
GitHub Gist 指南
Github作为代码分享平台在开发者中非常流行.此平台托管了包括游戏.书籍以至于字体在内的一千两百多万个项目(现在更多),这使其成为互联网上最大的代码库. Github还提供另一个非常有用的功能,就是 ...
面试必备技能-HiveSQL优化
Hive SQL基本上适用大数据领域离线数据处理的大部分场景.Hive SQL的优化也是我们必须掌握的技能,而且,面试一定会问.那么,我希望面试者能答出其中的80%优化点,在这个问题上才算过关. Hi ...
.Net和C#介绍
一.前言本文主要针对刚入门以及还需要对基础进行恶补一下的兄弟进行基础介绍,并尽可能的做到客观,如有错误也虚心接受高手门的纠正. 二..Net平台简介 .net即DotNet,首先我先给出微软的定义: ...
Deeplearning.ai课程笔记--汇总
从接触机器学习就了解到Andrew Ng的机器学习课程,后来发现又出来深度学习课程,就开始在网易云课堂上学习deeplearning.ai的课程,Andrew 的课真是的把深入浅出.当然学习这些课程还 ...
浅谈ASP.NET框架
本篇文章更适合具有一定开发经验,一定功底,且对底层代码有所研究的朋友!!! 本篇文章稍微偏原理且底层,有一定难度和且比较晦涩,文章粒度稍微粗些,更细粒度的,会在后续的文章中,结合具体的Demo实 ...
JavaScript中常见的十五种设计模式
在程序设计中有很多实用的设计模式,而其中大部分语言的实现都是基于“类”. 在JavaScript中并没有类这种概念,JS中的函数属于一等对象,在JS中定义一个对象非常简单(var obj = {}), ...
cobbler单台服务器实现批量自动化安装不同版本系统-技术流ken
前言在上一篇博文<cobbler批量安装系统使用详解-技术流ken>中已经详细讲解了cobbler的使用以及安装,本篇博文将会使用单台cobbler实现自动化批量安装不同版本的操作系统. ...
OpenCV入门之寻找图像的凸包（convex hull）
介绍凸包(Convex Hull)是一个计算几何(图形学)中的概念,它的严格的数学定义为:在一个向量空间V中,对于给定集合X,所有包含X的凸集的交集S被称为X的凸包. 在图像处理过程中,我们 ...
MHA高可用
MHA(Master High Availability)目前在 MySQL 高可用方面是一个相对成熟的解决方案,它由日本 DeNA 公司 youshimaton(现就职于 Facebook 公司)开 ...

Spark Shuffle机制

Spark Shuffle机制的更多相关文章

随机推荐

热门专题