关于MapReduce默认分区策略

MapReduce默认分区策略

mapreduce 默认的分区方式是hashPartition，在这种分区方式下，KV对根据key的hashcode值与reduceTask个数进行取模，决定该键值对该要访问哪个ReduceTask。

以下就是Hadoop MapReduce中对于默认分区的源码

public int getPartition(K2 key, V2 value,

                          int numReduceTasks) {

    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;

  }

其中key.hashCode()，是对map输出的key取hashCode值
& 是java中位运算符，在数据的二进制层面上按位与的意思

public class data13{

public static void main(String[] args){

	int a=129;

	int b=128;

	System.out.println("a 和b 与的结果是："+(a & b));

	}

}

运行结果：a 和b与的结果是：128

下面分析这个程序：

“a”的值是129，转换成二进制就是10000001，而“b”的值是128，转换成二进制就是10000000。

根据与运算符的运算规律，只有两个位都是1，结果才是1，可以知道结果就是10000000，即128。

综合而言，key.hashCode() & Integer.MAX_VALUE 是要保证任何map输出的key在numReduceTasks取模后决定的分区为正整数。

常见数据的hashcode值

int类型的数据

public void testInt() {

		for(int i = -3;i<=3; i++ ) {

			System.out.println(((Integer)i).hashCode());

		}

	}

结果：

由此可见，对于int数据而言，它的hashcode值就是其包装类型Integer本身，也有正负之分

解决int类型数据hashcode值取模出现负数而影响分区的方式

public void testIntMax() {

		for(int i = -3;i<=3; i++) {

			int n = ((Integer)i).hashCode();

			System.out.println(n & Integer.MAX_VALUE);

		}

	}

结果：

由此可见hashcode值如果为负数的话，可以对其与Integer.MAX_VALUE按位运算，之后其结果就成为了正数

3.字符类型的hashcode值

public void testChar(){

		for(int i = (int)'a'; i<=(int)'a'+25;i++ ) {

			String str = String.valueOf((char)i);

			System.out.print((char)i+"->"+str.hashCode()+"\n");

		}

	}

结果：

a->97

b->98

...

x->120

y->121

z->122

由此可见英文字幕a-z或者A-Z的hashcode值就是其对应的整形数值。

————————————————

原文链接：https://blog.csdn.net/gjf362/article/details/74496977

关于MapReduce默认分区策略的更多相关文章

Kafka生成消息时的3种分区策略
摘要:KafkaProducer在发送消息的时候,需要指定发送到哪个分区, 那么这个分区策略都有哪些呢? 本文分享自华为云社区<Kafka生产者3中分区分配策略>,作者:石臻臻的杂货铺. ...
HBase 的MOB压缩分区策略介绍
版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/zNZQhb07Nr/article/details/79832392 HBase应用场景很广泛.社区 ...
DART: a fast and accurate RNA-seq mapper with a partitioning strategy DART：使用分区策略的快速准确的RNA-seq映射器
DART: a fast and accurate RNA-seq mapper with a partitioning strategyDART:使用分区策略的快速准确的RNA-seq映射器 Abs ...
cassandra框架模型之一——Colum排序，分区策略 Token，Partitioner bloom-filter，HASH
转自:http://asyty.iteye.com/blog/1202072 一.Cassandra框架二.Cassandra数据模型 Colum / Colum Family, SuperColum ...
Spark GraphX图算法应用【分区策略、PageRank、ConnectedComponents，TriangleCount】
一.分区策略 GraphX采用顶点分割的方式进行分布式图分区.GraphX不会沿着边划分图形,而是沿着顶点划分图形,这可以减少通信和存储的开销.从逻辑上讲,这对应于为机器分配边并允许顶点跨越多台机器. ...
Kafka 消费者及消费者分区策略
消费方式: consumer 采用 pull(拉)模式从 broker 中读取数据. push(推)模式很难适应消费速率不同的消费者,因为消息发送速率是由 broker 决定的. 它的目标是尽可能以最 ...
Kafka分区策略
Kafka分区策略所谓分区策略是决定生产者将消息发送到哪个分区的算法.Kafka 为我们提供了默认的分区策略,同时它也支持你自定义分区策略. 常见的分区策略包含以下几种:轮询策略.随机策略 .按消息 ...
UEFI+GPT模式下的Windows系统中分区结构和默认分区大小及硬盘整数分区研究
内容摘要:本文主要讨论和分析在UEFI+GPT模式下的Windows系统(主要是最新的Win10X64)中默认的分区结构和默认的分区大小,硬盘整数分区.4K对齐.起始扇区.恢复分区.ESP分区.MSR ...
Hive 默认分区
在hive里面表可以创建成分区表,但是当分区字段的值是'' 或者 null时 hive会自动将分区命名为默认分区名称. 默认情况下,默认分区的名称为__HIVE_DEFAULT_PARTITION__ ...

随机推荐

APP自动化 -- swipe（滑动屏幕）
python工业互联网应用实战3—模型层构建
本章开始我们正式进入到实战项目开发过程,如何从需求分析获得的实体数据转到模型设计中来,变成Django项目中得模型层.当然,第一步还是在VS2019 IDE环境重创建一个工程项目,本文我们把工程名称命 ...
Ubuntu Linux markdown编辑工具 typora 安装
Typora简介 Typora是一款轻便简洁的Markdown编辑器,支持即时渲染技术,这也是与其他Markdown编辑器最显著的区别.即时渲染使得你写Markdown就想是写Word文档一样流畅自如 ...
PHP date_date_set() 函数
------------恢复内容开始------------ 实例返回一个新的 DateTime 对象,设置一个新的日期,然后格式化日期: <?php$date=date_create();d ...
luogu P1446 [HNOI2008]Cards burnside引理置换不动点
LINK:Cards 不太会burnside引理而这道题则是一个应用. 首先一个非常舒服的地方是这道题给出了m个本质不同的置换然后带上单位置换就是m+1个置换. burnside引理: 其中D( ...
BSOJ 5445 -- 【2018雅礼】树 prufer序列 dp
BSOJ在哪我也不知道没有链接. 对于有标号无根树的统计和有度数限制一般采用prufer序列. 根据prufer序列容易知道某个点的出现次数+1为当前点的度数. 对于这道题考虑设f[i][j ...
luogu P3264 [JLOI2015]管道连接
LINK:管道连接一张无向图有P个关键点其中有K个集合各个集合要在图中形成联通块边有边权求最小代价. 其实还是生成树问题某个点要和某个点要在生成树中类似这个意思. 可以发现是斯坦纳树 ...
使用VMware虚拟机建立Ubuntu与主机win7的文件共享与传输
1.要想在虚拟机与主机之间建立共享文件夹必须先安装VMware Tools.方法见https://www.cnblogs.com/lsc666js/p/13403919.html. 2.在VMware ...
使用Flask开发简单接口(3)--引入MySQL
前言前面的两篇文章中,我们已经学习了通过Flask开发GET和POST请求接口,但一直没有实现操作数据库,那么我们今天的目的,就是学习如何将MySQL数据库运用到当前的接口项目中. 本人环境:Pyt ...
为写程序而生的连字字体 Fira Code
Fira Code,等宽的编程连字字体 **等宽 ** 是指所有字符的宽度相同,如: W 和 i 用一样的宽度去显示连字(ligatures)为文字排印的一个特性,比如「f」和「 i」放在一起的时候 ...

关于MapReduce默认分区策略

MapReduce默认分区策略

常见数据的hashcode值

关于MapReduce默认分区策略的更多相关文章

随机推荐

热门专题