hadoop-streaming 配置之---参数分割

map:

-D stream.map.output.field.separator=. 定义mapoutput字段的分隔符为.  用户可以自定义分隔符（除了默认的tab）

-D stream.num.map.output.key.fields=4  第四个.前面的是key，后面的是value。如果该行.的个数少于四个，则整行数据就是key，value是空。

总结：就是划分map输出的key与value的。因为输出的都是文本行。都有个划分标志。

对应context.write(key, value)

reduce:（同上）

-D stream.reduce.output.field.separator=SEP

-D stream.num.reduce.output.fields=NUM

partitioner

-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner

-D stream.map.output.field.separator=.

-D stream.num.map.output.key.fields=4

-D map.output.key.field.separator=.       字面的解释：map的输出key的field的separator=.   (对key再进行切分==二面）

#-D num.key.fields.for.partition=2        指定将key分割后的前两部分用做partition

-D mapred.text.key.partitioner.options=-k1,2    附注：-k1,2 指定对key进行划分后第1 2个域进行划分（上述解释没有找到相关文档，也不属于原文） 

example1

Output输出（keys） 因为  -D stream.num.map.output.key.fields=4 指定map的输出行前4个作为key，后面为value

11.12.1.2

11.14.2.3

11.11.4.1

11.12.1.1

11.14.2.2

划分到3个reducer（前面2个字段作为partition的keys）

11.11.4.1

-----------

11.12.1.2

11.12.1.1

-----------

11.14.2.3

11.14.2.2  

Reducer的每个划分内排序（4个字段同时用于排序）   实现了partitioner不是用map的输出key做partition而是用key的某一部分，对应了java中的自定义partitioner

11.11.4.1

-----------

11.12.1.1

11.12.1.2

-----------

11.14.2.2

11.14.2.3 

example2

-D mapred.output.key.comparator.class=org.apache.hadoop.mapred.lib.KeyFieldBasedComparator

-D stream.map.output.field.separator=.

-D stream.num.map.output.key.fields=4

-D map.output.key.field.separator=.

-D mapred.text.key.comparator.options=-k2,2nr

-k2,2nr 中-k2,2指定key分割后的第2个域进行排序，n 指定使用数字排序，r指定排序结果最后要进行反转

Map输出（keys）

11.12.1.2

11.14.2.3

11.11.4.1

11.12.1.1

11.14.2.2

Reducer的输出（使用第二个字段进行排序）

11.14.2.3

11.14.2.2

11.12.1.2

11.12.1.1

11.11.4.1

hadoop-streaming 配置之---参数分割的更多相关文章

Hadoop Streaming 使用及参数设置
http://www.cnblogs.com/hopelee/p/7476145.html https://blog.csdn.net/djy37010/article/details/5505103 ...
Hadoop YARN配置参数剖析—RM与NM相关参数
注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患.另外,这些参数均需要在yarn-site.xml中配置. 1. ResourceManager相关配置参数 (1) ...
Ubuntu15.10下Hadoop2.6.0伪分布式环境安装配置及Hadoop Streaming的体验
Ubuntu用的是Ubuntu15.10Beta2版本,正式的版本好像要到这个月的22号才发布.参考的资料主要是http://www.powerxing.com/install-hadoop-clus ...
Hadoop Streaming详解
一: Hadoop Streaming详解 1.Streaming的作用 Hadoop Streaming框架,最大的好处是,让任何语言编写的map, reduce程序能够在hadoop集群上运行:m ...
hadoop streaming怎么设置key
充分利用hadoop的map输出自动排序功能,能够有效提高计算效率.Hadoop streaming框架默认情况下会以'/t’作为分隔符,将每行第一个'/t’之前的部分作为key,其余内容作为valu ...
用python + hadoop streaming 编写分布式程序（一） -- 原理介绍，样例程序与本地调试
相关随笔: Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序(二) -- 在集群上运行与监控用python + hadoop streami ...
用python + hadoop streaming 编写分布式程序（三） -- 自定义功能
又是期末又是实训TA的事耽搁了好久……先把写好的放上博客吧相关随笔: Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序(一) -- 原理介绍 ...
Hadoop Streaming
原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/streaming.html Hadoop Streaming Streaming工作原理将文件打包到提交的 ...
Hadoop Streaming框架使用（一）
Streaming简介 link:http://www.cnblogs.com/luchen927/archive/2012/01/16/2323448.html Streaming框架允许任何程 ...

随机推荐

Vim 的补全模式加速器，轻松玩转全部 15 种自动补全模式
1. 关于 Vim 补全模式 ---- Vim 一共提供了 15 种自动补全的模式(:help ins-completion).其中有两种的补全列表内容与另外两种相同,只是排序不同,这 15 种 ...
在安卓下使用python连接蓝牙串口模块(HC-06)
在安卓上安装Python: 请参考:https://github.com/kuri65536/python-for-android/blob/master/README.md下载程序文件需要访问 ht ...
Android端手机测试体系
1.冒烟测试跟web端的测试流程一样,你拿到一个你们开发做出来的apk首先得去冒烟,也就是保证他的稳定性,指定时间内不会崩溃.这款原生sdk自带的monkey可以当做我们的测试工具.就跟我之前博客所 ...
PHP持续保有长连接，利用flush持续更新浏览器UI，下载进度条实现
如何用PHP+JS实现上传进度条,大部分的人可能都实现过,但是下载呢?如何呢?原理也是差不多的,就是分次读写,每次读多少字节,但是这样的不好就是长连接,一般实现下载进度条常用的两种解决方案是:一种是需 ...
揭开CSS3媒体查询迷雾（min-width和max-width）
本文参考MichelleKlann的Media Queries Demystified: Min-Width and Max-Width 媒体查询(media queries)是响应式设计(Respo ...
Opencv——灰度直方图
灰度直方图是灰度级的函数,它表示图像中具有某种灰度级的像素的个数,反映了图像中某种灰度出现的频率. 如果将图像总像素亮度(灰度级别)看成是一个随机变量,则其分布情况就反映了图像的统计特性,这可用pro ...
Android开发之万能适配器
ListView.GridView等等非常多的东西都需要适配器.而如果开发一个app每一个listview都有写一个Adapter的话,那还怎么愉快的玩游戏.. 什么是ViewHolider以及的用法 ...
ASP.NET MVC模型绑定的6个建议（转载）
ASP.NET MVC模型绑定的6个建议发表于2011-08-03 10:25| 来源博客园| 31 条评论| 作者冠军 validationasp.netmvc.netasp 摘要:ASP.NET ...
IOS- 最简单的反向传值- block
block 常用于反向传值声明返回值类型 (^block)(参数列表) 调用闭包的名字=^(参数列表){}: 闭包的名字(): 如: void(^aaaaa)(int num,NSString ...
asp.net 音乐播放器
<HTML> <HEAD><TITLE>Playback Example</TITLE> </HEAD> <BODY> < ...

hadoop-streaming 配置之---参数分割

hadoop-streaming 配置之---参数分割的更多相关文章

随机推荐

热门专题