Python开发MapReduce系列（二）Python实现MapReduce分桶

首先，先引出两点来展开下面的话题。

(1)map阶段的排序是在hash之后，写入磁盘之前进行。排序的两个关键字是partition（分区编号）和key。

(2)map结束后，并不是马上写到磁盘的，而是有个环形缓冲区，数据写到缓冲区中，默认溢出率是80%(这个值可以通过属性设置 io.sort.mb)，每达到溢出条件就溢出生成一个小文件，直到全部数据写完，最后把所有的小文件合并成一个大文件，并写到磁盘中。这样做的目的是减少磁盘寻道时间，让每个map只输出一个文件，并为这个文件提供索引文件，记录下每个reduce对应数据的偏移量.(其实就是为map与reduce之间的分发建立映射关系)

1、默认情况介绍

在hadoop streaming的默认情况下，是以”\t”作为分隔符的。对于标准输入来说，以每行读取到的数据的第一个”\t”为分界线，在其之前的部分为key，在其之后的为value。如果一个 "\t" 字符没有，则整行都被当做是key处理。

2、MapReduce shuffler过程中的sort和partition阶段

mapper阶段除了用户代码，最重要的是shuffle 过程，这个过程是MapReduce耗时和消耗资源的主要地方，因为其涉及到磁盘的写入等操作。这里先不谈优化方面的处理，只研究shuffle 过程中的sort和partition两个过程。为什么只研究这两个过程，因为，sort和partition是MapReduce的核心思想，整个过程就是在不断的重复排列和分割的操作。

从第1点可以知道，MapReduce的key默认是以 \t 分割得到的，我们能不能根据自己的需要来获取到特定形式的key？实现类似分桶、根据指定列的排序之类的自由排序呢？答案是可以的。我们可以通过以下的参数来实现：

3、相关的参数介绍

3.1map阶段

-jobconf mapred.reduce.tasks=2【此属性针对下面的例子都有效】

     map.output.key.field.separator：指定map输出<key,value>对之后，其中key内部的分割符。

     num.key.fields.for.partition：指定分桶时，按照分隔符切割后，用于分桶key所占的列数。

     -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner：前两个参数，要配合这个partitioner，没有的话会报错

例如：map.output.key.field.separator=,

     num.key.fields.for.partition=2

     -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner

一行数据：1 , 2 , 3 , 4 , 5（在这里1 2 之间的逗号是key内部的分隔符，并且1,2格式key的数据分为到同一桶）

     stream.map.output.field.separator： map中的key与value的分隔符

     stream.num.map.output.key.fields：指定map输出按照分隔符切割后，key所占有的列数，之前的是key，之后的是value

例如：map.output.key.field.separator=,

     num.key.fields.for.partition=2

     -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner

     stream.map.output.field.separator=:

     stream.num.map.output.key.fields=3

     输入：1 , 2 , 3 , 4 , 5

          1 , 2 , 2 , 4 , 5

          1 , 3 , 4 , 4 , 5

          1 , 3 , 3 , 4 , 5

    输出part-00000：1 , 2 , 2 : 4 , 5

                   1 , 2 , 3 : 4 , 5

    输出part-00000：1 , 3 , 3 : 4 , 5

                   1 , 3 , 4 : 4 , 5

    1 , 2 是分桶值，1 , 2 , 3是key， 4 , 5是value。在这里1 2 之间的逗号是key内部的分隔符，1 , 2格式key的数据分为到同一桶

3.2 reduce阶段

stream.reduce.output.field.separator：reduce中key与value的分隔符

stream.num.reduce.output.key.fields：reduce中分隔符的位置

3、分桶测试

run.sh脚本（作为一个会偷懒的程序猿，能偷懒就偷懒，写个脚本省掉每次写入一大串指令的烦恼）

HADOOP_CMD="/home/hadoop/hadoop/bin/hadoop"

STREAM_JAR_PATH="/home/hadoop/hadoop/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_PATH_A="/a.txt"

INPUT_PATH_B="/b.txt"

OUTPUT_PATH="/output"

$HADOOP_CMD fs -rmr  $OUTPUT_PATH    #mapreduce在运行时，文件系统不能存在output目录（目录名字随意）

$HADOOP_CMD jar $STREAM_JAR_PATH \

    -input $INPUT_FILE_PATH_A,$INPUT_FILE_PATH_B\

    -output $OUTPUT_SORT_PATH \

    -mapper "python map.py" \

    -reducer "python red.py" \

    -file ./map.py \

    -file ./red.py \

    -jobconf mapred.reduce.tasks=2 \

    -jobconf map.output.key.field.separator=, \

    -jobconf num.key.fields.for.partition=2 \

    -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \

    -jobconf stream.map.output.field.separator=: \

    -jobconf stream.num.map.output.key.fields=3

a.txt内容

1,2,3:hadoop

1,2,1:hadoop

1,2,5:hadoop

1,3,4:hadoop

1,2,9:hadoop

1,2,11:hadoop

1,2,7:hadoop

1,3,15:hadoop

1,3,14:hadoop

1,2,19:hadoop

b.txt内容

1,2,0:java

1,2,2:java

1,2,8:java

1,3,4:java

1,2,2:java

1,2,14:java

1,2,12:java

1,3,1:java

1,3,5:java

1,2,3:java

4、结果输出

【part-00000】输出内容如下：

1,2,0:java

1,2,1:hadoop

1,2,2:java

1,2,2:java

1,2,3:hadoop

1,2,3:java

1,2,5:hadoop

1,2,7:hadoop

1,2,8:java

1,2,9:hadoop

1,2,11:hadoop

1,2,14:java

1,2,19:hadoop

【part-00001】输出内容如下：

1,3,1:java

1,3,4:hadoop

1,3,4:java

1,3,5:java

1,3,14:hadoop

1,3,15:hadoop

5、结果分析

由结果可以看出:

(1)以前2列为分桶标志，因为part-00000，part-00001分别以1,2和1,3开头。

(2)以前3列为key，并且第3列为分桶之后排序的key。

(3)key内部之间是以 , 分隔。

(4)key与value之间是以 : 分隔。

参考：

(1)《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》

Python开发MapReduce系列（二）Python实现MapReduce分桶的更多相关文章

WCF开发实战系列二：使用IIS发布WCF服务
WCF开发实战系列二:使用IIS发布WCF服务 (原创:灰灰虫的家http://hi.baidu.com/grayworm) 上一篇中,我们创建了一个简单的WCF服务,在测试的时候,我们使用VS200 ...
【神经网络与深度学习】【python开发】caffe-windows使能python接口使用draw_net.py绘制网络结构图过程
[神经网络与深度学习][python开发]caffe-windows使能python接口使用draw_net.py绘制网络结构图过程标签:[神经网络与深度学习] [python开发] 主要是想用py ...
python开发初期及二次开发C api
1,python2 or python 区别, https://wiki.python.org/moin/Python2orPython3 python software foundation 2,p ...
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheetahcherrypy:一个WEB frameworkctype ...
Python开发第01课 Python 简介
一.Python 介绍 python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹打发时间,决心开发一个新的脚本解释程序,作为AB ...
【开发者portal在线开发插件系列二】多条上下行消息（messageId的使用）【华为云技术分享】
前言和基本操作请参考[开发者portal在线开发插件系列一]profile和基本上下行消息,此处不再复述,没操作过的小伙伴一定要先去看看哦~ 话不多说,开始今天的演(表)示(演) 场景说明: 假设一: ...
Python学习笔记之二——Python的运行机制，一般人肯定不会
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:XX Python解释器简介解释器是一种让其他程序运行起来的程 ...
【Python开发】C和Python之间的接口实现
作者:Jerry Jho 链接:https://www.zhihu.com/question/23003213/answer/56121859 ## 更新:关于ctypes,见拙作聊聊Python ...
python开发第二篇：python基础
python基础a.Python基础 -基础1. 第一句python -python后缀名可以任意? -导入模块时如果不是.py文件,以后的文件后缀名是.py.2.两种 ...
Python开发篇——构建虚拟Python开发环境（Conda+Poetry）
前言之前虽略有提及Python,但是没有实际地写点料.惭愧,惭愧,所以这次先起个头,讲讲如何构建虚拟Python开发环境.相信之前看过我博客的人可能会想:博主不会又要聊聊Docker吧?放心,不会. ...

随机推荐

MySQL备份还原之二使用mysqldump
1 场景描述: create table gyj_t1(id int,name varchar(10)); insert into gyj_t1 values(1,'AAAAA'); commit; ...
Python基础学习四列表、元组、字典、集合
列表list,用中括号“[ ]”表示 1.任意对象的有序集合列表是一组任意类型的值,按照一定顺序组合而成的 2.通过偏移读取组成列表的值叫做元素(Elements).每一个元素被标识一个索引,第一 ...
升级到Win10 周年更新版
尝试过强制刷更新,但是没用,最近微软才跟我的机器推送周年更新,于是更新. 花费了些时间更新,之前网上有的那些诗句,亲眼看看还是蛮有意思的. 但是更新完了后,explorer 一直出错,有闪退(闪屏)一 ...
C#中的IEnumerator、foreach、yield
[C#中的IEnumerator.foreach.yield] 1.IEnumerator,是一个接口,它的方法如下: 2.foreach语句,在编译后会变成IEnumerator的调用: 3.yie ...
Leetcode:Task Scheduler分析和实现
题目大意:提供k个任务,这些任务没有依赖关系(即可以任意调度).CPU完成一个任务需要耗时一个时间片段,当执行完一个任务后,相同的任务必须在n个时间片段才能得以执行.请问CPU通过调度最快能在多少时间 ...
用gdb+nm调试php c extension程序
.so写好了是给php脚本调用的,如果php脚本执行崩掉了,.so也只能在进程中饮恨而终,这时候php脚本调试经常用的echo, print_r, var_dump都派不上用场了.即使能打印一点儿错误 ...
基于PCL绘制模型并渲染
博客转载自:https://blog.csdn.net/wokaowokaowokao12345/article/details/51321988 前言抛开算法层面不谈,要利用PCL库中PCLVis ...
目录、目录项、文件名、inode、软硬链接的关系
对于Unix系列的操作系统,大多都有v节点.但是对于linux来说,只有通用的i节点,却没有v节点. 下面来探讨一下,linux下的i节点. linux中,文件查找不是通过文件名称来查找的.实际上是通 ...
ubuntu开启ssh
SSH分客户端openssh-client和openssh-server如果你只是想登陆别的机器的SSH只需要安装openssh-client(ubuntu有默认安装,如果没有则sudo apt-ge ...
手机APP兼容性测试
兼容性测试方案兼容性问题屏幕分辨率兼容性问题软件(iOS和Android系统版本及不同厂家的定制ROM)兼容性问题硬件(不同的CPU.内存大小等等)兼容性问题网络(2G/3G/4G/WIFI ...

Python开发MapReduce系列（二）Python实现MapReduce分桶

Python开发MapReduce系列（二）Python实现MapReduce分桶的更多相关文章

随机推荐

热门专题