mr的partition分区

1、Partitioner 组件通过让 Map 对 Key 进行分区，从而将不同分区的 Key 交由不同的 Reduce 处理。Partition属于map端

2、分区的总数与任务的reduce任务数相同

partitioner定义：
partitioner的作用是将mapper 输出的key/value拆分为分片（shard），每个reducer对应一个分片。
默认情况下，partitioner先计算key的散列值（hash值）。然后通过reducer个数执行取模运算：key.hashCode%(reducer个数)。这样能够随机地将整个key空间平均分发给每个reducer,同时也能确保不同mapper产生的相同key能被分发到同一个reducer。

以下图片截取自Hadoop权威指南（第三版）

目的：
        可以使用自定义Partitioner来达到reducer的负载均衡，    提高效率。
适用范围：
        需要非常注意的是：必须提前知道有多少个分区。比如自定义Partitioner会返回4个不同int值，而reducer number设置了小于4，那就会报错。所以我们可以通过运行分析任务来确定分区数。
        例如，有一堆包含时间戳的数据，但是不知道它能追朔到的时间范围，此时可以运行一个作业来计算出时间范围。
注意：
在自定义partitioner时一定要注意防止数据倾斜。

从以上源码我们可以看到Partitioner 抽象类由getPartition(KEY key, VALUE value, int numPartitions)方法组成，起三个参数分别为：（KEY key, VALUE value, int numPartitions）

一下大概对此方法做简要说明：

1）key、value分别指的是Mapper任务的输出

2）numReduceTasks指的是设置的Reducer任务数量，默认值是1，numReduceTasks指的是设置的Reducer任务数量，默认值是1

以下做一个简单的例子以供参考：

class ThePartitioner extends Partitioner<Text, Text> {
@Override
public int getPartition(Text key, Text value,
int numPartitions) {

Long l = Long.valueOf((key.hashCode() - Integer.MAX_VALUE) % numPartitions);
return Math.abs(Integer.parseInt(l.toString()));
}
}

————————————————
版权声明：本文为CSDN博主「hochoy」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/hochoy/article/details/79633712

mr的partition分区的更多相关文章

mysql Partition(分区)初探
mysql Partition(分区)初探表数据量大的时候一般都考虑水平拆分,即所谓的sharding.不过mysql本身具有分区功能,可以实现一定程度的水平切分. mysql是具有MERG ...
MySQL partition分区I
http://blog.csdn.net/binger819623/article/details/5280267 一. 分区的概念二. 为什么使用分区?(优点)三. ...
MYSQL之水平分区----MySQL partition分区I（5.1）
一. 分区的概念二. 为什么使用分区?(优点) 三. 分区类型四. 子分区五. 对分区进行修改(增加.删除.分解.合并) 六 ...
kafka之partition分区及副本replica升级
修改kafka的partition分区 bin/kafka-topics.sh --zookeeper datacollect-2:2181 --alter --partitions 3 --topi ...
mysql的partition分区
前言:当一个表里面存储的数据特别多的时候,比如单个.myd数据都已经达到10G了的话,必然导致读取的效率很低,这个时候我们可以采用把数据分到几张表里面来解决问题.方式一:通过业务逻辑根据数据的大小通过 ...
Hadoop(17)-MapReduce框架原理-MapReduce流程,Shuffle机制,Partition分区
MapReduce工作流程 1.准备待处理文件 2.job提交前生成一个处理规划 3.将切片信息job.split,配置信息job.xml和我们自己写的jar包交给yarn 4.yarn根据切片规划计 ...
Hadoop值Partition分区
分区操作为什么要分区? 要求将统计结果按照条件输出到不同文件中(分区).比如:将统计结果按照手机归属地不同省份输出到不同文件中(分区) 默认 partition 分区 /** 源码中:numRed ...
oracle partition 分区
--范围分区create table person( id int, name varchar2(20), birth date, sex char(2))partition by range (bi ...
MR案例：分区和排序
现有一学生成绩数据,格式如下:<学号,姓名,学院,成绩> //<id, name, institute, grade>. 需求描述:查询成绩大于等于60分的学生数据,按学院分 ...

随机推荐

列表渲染.html
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
Mycat分布式数据库架构解决方案--Mycat实现读写分离
echo编辑整理,欢迎转载,转载请声明文章来源.欢迎添加echo微信(微信号:t2421499075)交流学习. 百战不败,依不自称常胜,百败不颓,依能奋力前行.--这才是真正的堪称强大!!! 安装完 ...
前端技术之：JS开发几个有意思的东东
一. 查看性能分析报告 npm run build:prod --report 二.vue ui工具三.vue-element-admin https://panjiachen.gite ...
一道国外前端面试题引发的Coding...
刚刚看到CSDN微信公众号一篇文章,关于国外程序员面试前端遇到的一道测试题,有点意思,遂写了下代码,并记录一下~ 题目是这样的: ['Tokyo', 'London', 'Rome', 'Donlon ...
css实现鼠标悬浮后的提示效果
一.概述很多时候网站中需要在鼠标划过小图标时,悬浮出提示性的文字.比如下图: 鼠标悬浮后的效果这种效果可以使用css中的伪类hover来实现.但有时候搞不清两个元素的嵌套关系.使用了hover却没 ...
.net里面<app.config>中value值不能填写特殊符号问题
配置app.config或web.config的时候,经常要填写value值, 但是value值不能包含特殊字符,需要转义, 分享一下转义字符 App.config 实际上是 xml 文件,在标准 x ...
使用Typescript重构axios(一)——写在最前面
0.系列文章 1.使用Typescript重构axios(一)--写在最前面 2.使用Typescript重构axios(二)--项目起手,跑通流程 3.使用Typescript重构axios(三)- ...
My Android 学习之旅--开始
其实,很早就想写写博客了,一直懒到现在. 学习android也不是今天才开始的,大概在2月份过完年之后就开始了,买了我认为还可以的书<Android从入门到精通>,花了不到一个月的时间,把 ...
Linux的组管理和权限管理
前言前面的文章中提到:Linux在管理用户权限时,既是面向用户的,又是面向组的,通过管理用户的权限规定了其对所拥有的文件的权限(读.改.执行),通过管理组的权限而规定了该组中用户对于某一文件的权限. ...
JS面试题-<变量和类型>-JavaScript浅拷贝与深拷贝
前言最开始了解到深浅拷贝是因为准备面试,但那个时候因为在学校做的项目比较少需求也比较简单,所以没有在项目中遇到这类问题,所以对这个问题就属于知道这个知识点,看过相关内容,却没有自己的总结,也没有深入 ...

mr的partition分区

mr的partition分区的更多相关文章

随机推荐

热门专题