Spark笔记-repartition和coalesce

窄依赖、宽依赖以及stage的划分依据：https://www.cnblogs.com/itboys/p/6673046.html

参考： http://blog.csdn.net/u012684933/article/details/51028707

参考： http://blog.csdn.net/dax1n/article/details/53431373

参考： http://blog.csdn.net/qq_14950717/article/details/52871666

repartition(numPartitions:Int)和coalesce(numPartitions:Int，shuffle:Boolean=false)
作用：对RDD的分区进行重新划分，repartition内部调用了coalesce，参数shuffle为true

例：RDD有N个分区，需要重新划分成M个分区
1. N小于M
一般情况下N个分区有数据分布不均匀的状况，利用HashPartitioner函数将数据重新分区为M个，这时需要将shuffle设置为true。
2. N大于M且和M相差不多
假如N是1000，M是100)那么就可以将N个分区中的若干个分区合并成一个新的分区，最终合并为M个分区，这时可以将shuff设置为false，在shuffl为false的情况下，如果M>N时，coalesce为无效的，不进行shuffle过程，父RDD和子RDD之间是窄依赖关系。
3. N大于M且和M相差悬殊
这时如果将shuffle设置为false，父子RDD是窄依赖关系，他们在同一个Stage中，就可能造成Spark程序的并行度不够，从而影响性能，如果在M为1的时候，为了使coalesce之前的操作有更好的并行度，可以讲shuffle设置为true。

总结：返回一个减少到numPartitions个分区的新RDD，这会导致窄依赖，例如：你将1000个分区转换成100个分区，这个过程不会发生shuffle，相反如果10个分区转换成100个分区将会发生shuffle。然而如果你想大幅度合并分区，例如所有partition合并成一个分区，这会导致计算在少数几个集群节点上进行（言外之意：并行度不够）。为了避免这种情况，你可以将第二个shuffle参数传递一个true，这样会在重新分区过程中多一步shuffle，这意味着上游的分区可以并行运行。

总之：如果shuff为false时，如果传入的参数大于现有的分区数目，RDD的分区数不变，也就是说不经过shuffle，是无法将RDD的partition数变多的

Spark笔记-repartition和coalesce的更多相关文章

Spark源码系列:DataFrame repartition、coalesce 对比
在Spark开发中,有时为了更好的效率,特别是涉及到关联操作的时候,对数据进行重新分区操作可以提高程序运行效率(很多时候效率的提升远远高于重新分区的消耗,所以进行重新分区还是很有价值的).在Spark ...
Spark源码系列:RDD repartition、coalesce 对比
在上一篇文章中 Spark源码系列:DataFrame repartition.coalesce 对比对DataFrame的repartition.coalesce进行了对比,在这篇文章中,将会对R ...
大数据学习day23-----spark06--------1. Spark执行流程（知识补充：RDD的依赖关系）2. Repartition和coalesce算子的区别 3.触发多次actions时，速度不一样 4. RDD的深入理解（错误例子，RDD数据是如何获取的）5 购物的相关计算
1. Spark执行流程知识补充:RDD的依赖关系 RDD的依赖关系分为两类:窄依赖(Narrow Dependency)和宽依赖(Shuffle Dependency) (1)窄依赖窄依赖指的是 ...
spark算子篇-repartition and coalesce
我们知道 RDD 是分区的,但有时候我们需要重新设置分区数量,增大还是减少需要结合实际场景,还有可以通过设置 RDD 分区数来指定生成的文件的数量重新分区有两种方法:repartition and ...
Spark笔记——技术点汇总
目录概况手工搭建集群引言安装Scala 配置文件启动与测试应用部署部署架构应用程序部署核心原理 RDD概念 RDD核心组成 RDD依赖关系 DAG图 RDD故障恢复机制 Standa ...
spark笔记环境配置
spark笔记 spark简介 saprk 有六个核心组件: SparkCore.SparkSQL.SparkStreaming.StructedStreaming.MLlib,Graphx Spar ...
Spark中repartition和partitionBy的区别
repartition 和 partitionBy 都是对数据进行重新分区,默认都是使用 HashPartitioner,区别在于partitionBy 只能用于 PairRDD,但是当它们同时都用于 ...
大数据学习——spark笔记
变量的定义 val a: Int = 1 var b = 2 方法和函数区别:函数可以作为参数传递给方法方法: def test(arg: Int): Int=>Int ={ 方法体 } v ...
spark 笔记 16： BlockManager
先看一下原理性的文章:http://jerryshao.me/architecture/2013/10/08/spark-storage-module-analysis/ ,http://jerrys ...

随机推荐

smarty模板基础----缓存数据
缓存数据,这个并不是暂存的缓存,而是写入了内存的缓存通过一个例子来书写:缓存数据一.书写php和html页面的基本功能既然是用smarty模板,那么前端和后端要分开写了 (1)php页面 1 2 ...
Linux Linux下最大文件描述符设置
Linux下最大文件描述符设置 by:授客 QQ:1033553122 1. 系统可打开最大文件描述符设置查看系统可打开最大文件描述符 # cat /proc/sys/fs/file-max 6 ...
Android 四大组件之broadcast的理解
Android广播的两种类型: 1.静态广播 2.动态广播静态注册广播: Manifeast中的代码块: <receiver android:name=".broadcast.MyS ...
Java的优先级任务队列的实践
队列的基本理解在说队列之前说两个名词:Task是任务,TaskExecutor是任务执行器而我们今天要说的队列就完全符合某机构这个情况,队列在有Task进来的时候TaskExecutor就立刻开始 ...
解决Chrome与jQuery菜单兼容问题
题外,Chrome最近在耗电量方面超过了Edge,不过内存占用还是高啊,开发时偶尔用用.这不,http://jqueryui.com/menu/的官方菜单都支持的不好,改改吧! 打开jquery-ui ...
java中获取系统的当前时间
转自:http://www.cnblogs.com/Matrix54/archive/2012/05/01/2478158.html 一. 获取当前系统时间和日期并格式化输出: import java ...
方法调用 Controller的Action 参数
using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.We ...
[20181229]关于字符串的分配问题.txt
[20181229]关于字符串的分配问题.txt --//链接:http://www.itpub.net/thread-2107534-1-1.html提到的问题,里面一段英文读起来很绕口:--//百 ...
ASP.NET MVC之从控制器传递数据到视图方式
为了演示,先定义一个类新建基本项目在Models文件夹下定义如下类: public class Person { public int Id { get; set; } public string ...
PostgreSQL分页
转自 https://blog.csdn.net/tomcat_2014/article/details/49947711 如果用过mysql,那么对 select * from xxx limit ...

Spark笔记-repartition和coalesce

Spark笔记-repartition和coalesce的更多相关文章

随机推荐

热门专题