hadoop 2.2.0 关于map和reduce的个数的设置

关于hadoop中的map过程，我的理解是每一个map系统会开启一个JVM进程来处理，map之间相互并行，map函数内串行。这样的想法是否正确？

由于想在hadoop集群上算一个初始输入数据不多，但是计算很复杂的程序，希望通过mapreduce来达到并行计算的目的。可以通过job.setNumReduceTasks(0);语句设置reduce个数为0,只使用map来计算。但是设置map的个数时遇到了问题：新的API中job没有类似setNumMapTasks()这样的方法; 在运行时加入参数-D mapreduce.map.tasks=2这样的参数也无效。

查过好多资料，好像是说map的个数取决于block_size、total_size等参数。但是都说的是1.x版本的设置，hadoop 2.2.0上并没有找到mapred.map.tasks、mapred.min.split.size等对应的设置方法。

由于我的输入文件只有一个文件，而且不算是“大数据”，只是单纯想在hadoop上实现并行，所以我希望能够设置一个最少的map数目，以便能在各个计算节点上并行。请问我应该如何设置？

事隔10天后无人回答，再次自问自答（— . —！）。最近看到一本书，上面介绍自定义InputFormat来控制map个数以及存储位置。稍微看了下FileInputFormat的接口，发现居然有setMaxInputSplitSize()这个静态方法。（自己以前怎么没发现！！也怪自己懒，不愿意去找）在run方法中加了这么一句FileInputFormat.setMaxInputSplitSize(job, 1048576), 再次运行貌似有效，程序生成了6个map来运行。

但感到没法解释的有两点：

1.此处设置的值为1048576(1M)，我的输入文件有20.95MB，如果最大份片大小为1M的话应该有20多个map。其中必然有更细致的判断，还得研究以下相应处理的代码才能解决；
2. 6个map全在同一个节点上运行，没有分到不同节点上；

我的环境为hadoop 2.2.0，我曾经试过修改dfs.blocksize等配置参数，但是似乎都没有生效。不知道为什么会出现配置参数无效的情况。

补充：刚才了解到最终的分片大小splitSize受到maxsize、minsize以及blocksize的影响。设置FileInputFormat.setMinInputSplitSize(job, 1)后，map数果然达到了20。

hadoop 2.2.0 关于map和reduce的个数的设置的更多相关文章

如何确定 Hadoop map和reduce的个数--map和reduce数量之间的关系是什么？
1.map和reduce的数量过多会导致什么情况?2.Reduce可以通过什么设置来增加任务个数?3.一个task的map数量由谁来决定?4.一个task的reduce数量由谁来决定? 一般情况下,在 ...
如何确定Hadoop中map和reduce的个数--map和reduce数量之间的关系是什么？
一般情况下,在输入源是文件的时候,一个task的map数量由splitSize来决定的,那么splitSize是由以下几个来决定的 goalSize = totalSize / mapred.map. ...
（转） hadoop 一个Job多个MAP与REDUCE的执行
http://blog.csdn.net/chaoping315/article/details/6221440 在hadoop 中一个Job中可以按顺序运行多个mapper对数据进行前期的处理,再进 ...
hadoop中map和reduce的数量设置问题
转载http://my.oschina.net/Chanthon/blog/150500 map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务 ...
Hadoop 中关于 map，reduce 数量设置
map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算,从这个观点来看,如果将map和reduce的数量设置为1,那么用户的任务 ...
Hadoop 系统配置 map 100% reduce 0%
之前在本地配置了hadoop伪分布模式,hdfs用起来没问题,mapreduce的单机模式也没问题. 今天写了个程序,想在伪分布式上跑一下mapreduce,结果出现 map 100% reduce ...
【hadoop】如何向map和reduce脚本传递参数,加载文件和目录
本文主要讲解三个问题: 1 使用Java编写MapReduce程序时,如何向map.reduce函数传递参数. 2 使用Streaming编写MapReduce程序(C/C++ ...
Hadoop map和reduce数量估算
Hadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数.首先分析一下job的maptask数,当一个job提交时,jobclient首先分析 ...
Hadoop :map+shuffle+reduce和YARN笔记分享
今天做了一个hadoop分享,总结下来,包括mapreduce,及shuffle深度讲解,还有YARN框架的详细说明等. v\:* {behavior:url(#default#VML);} o\:* ...

随机推荐

创建Sdcard
下载好源码之后编译生成了模拟器,这个时候的模拟器是没有SDcard的.这个时候需要创建需要为虚拟机创建SDcard 我们创建mksdcard 256M <src>/out/target/p ...
jq模糊匹配
jq是一般程序员在前台开发的时候都会使用的技术,其中模糊匹配查询在动态添加标签的时候经常用到,这里我写出我经常用到的几个模糊匹配的方法.其中有:^(前缀).$(后缀).*(包含)例如有这样一段代码: ...
AngularJS 跨站请求- jsonp请求
今天写东西的时候遇到了一种情况 ,因为用的不是自己公司人员写的接口 ,而我要写的东西是抓别的网页上的接口所以出现了一下这种情况这是我的请求: 我在浏览器模板赋值的时候发现赋值成功了, 在浏览器 ...
Eclipse连接MySQL出现Server time zone is unrecognized错误
错误代码: The server time zone value '?й???????' is unrecognized or represents more than one time zone. ...
C#带参数打开网页及url获取
1.带参数打开网页 Response.Redirect("form2.aspx?id=url1&name=ok"); 其中?后面为参数. 2.获取url 命令结果 Req ...
angular-ui-bootstrap插件API - Pagination
Pagination: 案例 <!DOCTYPE html> <html lang="en" ng-app="myApp"> <h ...
C# asp.net PhoneGap html5
很久没写博客,今天自己写一篇吧.来谈一谈c# PhoneGap,html5 与asp.net.能搜到这篇博客就说明你是一位.net开发者,即将或者正在从事移动开发. 大家可能都有疑,我是一名.net开 ...
ACM第五次积分赛
做出三道题,第二名,总积分上升到第八名,继续加油! SAU-ACM总比赛成绩姓名账号上学期成绩第一次成绩第二次成绩第三次成绩第四次成绩第五次成绩总成绩张国庆 143401 ...
Everything(速度快的文件搜索软件) 1.4.1.801b 汉化绿色版
软件名称: Everything(速度快的文件搜索软件) 软件语言: 简体中文授权方式: 免费软件运行环境: Win7 / Vista / Win2003 / WinXP 软件大小: 2.0MB ...
Signalr 实现心跳包
项目分析: 一个实时的IM坐席系统,客户端和坐席使用IM通信,客户端使用android和ios的app,坐席使用web. web端可以保留自己的登录状态,但为防止意外情况的发生(如浏览器异常关闭,断网 ...

hadoop 2.2.0 关于map和reduce的个数的设置

hadoop 2.2.0 关于map和reduce的个数的设置的更多相关文章

随机推荐

热门专题