Partition和ReduceTask的关系

先看源码：

    numPartitions = conf.getNumReduceTasks();

      if (numPartitions > 1) {            //设置了ReduceTask个数后（大于1），默认通过下面的getPartition()对数据进行分区

        partitioner = (Partitioner<K,V>)

          ReflectionUtils.newInstance(conf.getPartitionerClass(), conf);

      } else {

        partitioner = new Partitioner<K,V>() {

          @Override

          public void configure(JobConf job) { }

          @Override

          public int getPartition(K key, V value, int numPartitions) {

            return numPartitions - 1;      //默认情况下，ReduceTask个数为1,此时只有一个分区 即partition 0

          }

      //默认分区是根据key的hashcode对ReduceTasks个数取余得到的，用户无法控制哪个key存储到哪个分区 


       public int getPartition(K key, V value,

                 int numReduceTasks) {

　　　　　　　　　　return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;

 　　　　　　 }

结论：

1.ReduceTask的数量由job提交时的参数决定：job.setNumReduceTasks()。设置为多少，就开启多少个ReduceTask，默认为1。设置为0时，则表示没有Reduce阶段，只有Map阶段。生成文件数量由ReduceTask数量决定。

2.Partitioner的数量由ReduceTask的数量决定，Partitioner数量 =ReduceTask数量。

其中：　　1）若ReduceTask = 1 ，无论用户有没有自定义分区规则，都只有一个分区。

　　　　　2）若设置ReduceTask >1,则如果用户没有自定义Partitioner，则按照默认的HashPartitioner对数据进行划分。

　　　　　　　　　　　　　　　　　　如果用户自定义了Partitioner，则其中的分区的个数不能超过Partittion的数量，否则会 Exception。

Partition和ReduceTask的关系的更多相关文章

Spark中的partition和block的关系
hdfs中的block是分布式存储的最小单元,类似于盛放文件的盒子,一个文件可能要占多个盒子,但一个盒子里的内容只可能来自同一份文件.假设block设置为128M,你的文件是250M,那么这份文件占3 ...
深入了解Kafka【五】Partition和消费者的关系
1.消费者与Partition 以下来自<kafak权威指南>第4章. 假设主题T1有四个分区. 1.1.一个消费者组 1.1.1.消费者数量小于分区数量只有一个消费者时,消费者1将收到 ...
Spark RDD概念学习系列之rdd的依赖关系彻底解密（十九）
本期内容: 1.RDD依赖关系的本质内幕 2.依赖关系下的数据流视图 3.经典的RDD依赖关系解析 4.RDD依赖关系源码内幕 1.RDD依赖关系的本质内幕由于RDD是粗粒度的操作数据集,每个Tra ...
Spark名词解释及关系
随着对spark的业务更深入,对spark的了解也越多,然而目前还处于知道的越多,不知道的更多阶段,当然这也是成长最快的阶段.这篇文章用作总结最近收集及理解的spark相关概念及其关系. 名词 dri ...
Hadoop(17)-MapReduce框架原理-MapReduce流程,Shuffle机制,Partition分区
MapReduce工作流程 1.准备待处理文件 2.job提交前生成一个处理规划 3.将切片信息job.split,配置信息job.xml和我们自己写的jar包交给yarn 4.yarn根据切片规划计 ...
大数据学习笔记之Hadoop（三）：MapReduce&YARN
文章目录一 MapReduce概念 1.1 为什么要MapReduce 1.2 MapReduce核心思想 1.3 MapReduce进程 1.4 MapReduce编程规范(八股文) 1.5 Ma ...
大数据技术之Hadoop（MapReduce）
第1章 MapReduce概述 1.1 MapReduce定义 1.2 MapReduce优缺点 1.2.1 优点 1.2.2 缺点 1.3 MapReduce核心思想 MapReduce核心编程思想 ...
Mapreduce之排序&规约&实战案例
MapReduce 排序和序列化简单介绍 ①序列化 (Serialization) 是指把结构化对象转化为字节流②反序列化 (Deserialization) 是序列化的逆过程. 把字节流转为结构化 ...
Hadoop详解(05) – MapReduce
Hadoop详解(05) – MapReduce MapReduce概述定义 MapReduce是一个分布式运算程序的编程框架,是用户 "基于Hadoop的数据分析应用" 开发的 ...
kafka性能参数和压力测试揭秘
转自:http://blog.csdn.net/stark_summer/article/details/50203133 上一篇文章介绍了Kafka在设计上是如何来保证高时效.大吞吐量的,主要的内容 ...

随机推荐

KingbaseES 函数与存储过程内容加密
说明: 数据库系统使用过程中,有些业务功能在特殊的安全级别情况下,需要对数据库中的函数和存储过程进行加密存储,以保证数据库函数和过程的代码安全性.KingbaseES 数据库,提供了DBMS_DDL扩 ...
KingbaseES 集群运维系列 -- 验证系统用户修改密码或密码过期对ssh互信的影响
案例说明: Kingbase V8主备流复制集群在通用机环境部署和运维,需要建立主机间的ssh互信,如果ssh互信被破坏,将导致集群故障.但有的生产环境为了系统安全需要,会配置密码管理策略,定期的修改 ...
java反序列化-CC1
CC1 目录 CC1 1.Transformer接口 2.Transformer的实现类 ConstantTransformer ChainedTransformer InvokerTransform ...
Docker 解决 `denied: requested access to the resource is denied`
背景由于不可描述的原因,相对于以前,最近在更加频繁的迁移服务器,简单的 Shell 脚本已经不能满足需求了,于是将所有的项目 Docker 化. 部分不含敏感配置的项目准备放到 DockerHub ...
C# 面向对象编程进阶：构造函数详解与访问修饰符应用
C# 构造函数构造函数是一种特殊的方法,用于初始化对象.构造函数的优势在于,在创建类的对象时调用它.它可以用于为字段设置初始值: 示例获取您自己的 C# 服务器创建一个构造函数: // 创建一个 ...
Docker学习路线13：部署容器
部署容器是使用Docker和容器化管理应用程序更高效.易于扩展和确保跨环境一致性性能的关键步骤.本主题将为您概述如何部署Docker容器以创建和运行应用程序. 概述 Docker容器是轻量级.可移植且 ...
Numpy通用函数及向量化计算
Python(Cpython)对于较大数组的循环操作会比较慢,因为Python的动态性和解释性,在做每次循环时,必须做数据类型的检查和函数的调度. Numpy为很多类型的操作提供了非常方便的.静态类型 ...
JS-鼠标点击出现爱心
新建js文件,将代码复制到js文件中,然后在HTML文件中引入js,这样鼠标点击后就可以出现爱心 // js.js !function(e, t, a) { function r() { for (v ...
Excel 字符串拆分
用 Excel 处理数据时,有时需要对字符串进行拆分.对于比较简单的拆分,使用 Excel 函数可以顺利完成,但碰到一些特殊需求,或者拆分的规则比较复杂时,则很难用 Excel 实现了.这里列出一些拆 ...
mysql 重新整理——七种连接join连接[六]
前言总结一下其中join连接. 正文又到了盗图时刻: 上面标记好了顺序. 第一种: select * from A a left join B b on a.key=b.key 这里解释一下,这里 ...

Partition和ReduceTask的关系

Partition和ReduceTask的关系的更多相关文章

随机推荐

热门专题