hadoop输入分片计算(Map Task个数的确定)

　　作业从JobClient端的submitJobInternal()方法提交作业的同时，调用InputFormat接口的getSplits()方法来创建split。默认是使用InputFormat的子类FileInputFormat来计算分片，而split的默认实现为FileSplit(其父接口为InputSplit)。这里要注意，split只是逻辑上的概念，并不对文件做实际的切分。一个split记录了一个Map Task要处理的文件区间，所以分片要记录其对应的文件偏移量以及长度等。每个split由一个Map Task来处理，所以有多少split，就有多少Map Task。下面着重分析这个方法：

 public List<InputSplit> getSplits(JobContext job

                                     ) throws IOException {

     //getFormatMinSplitSize()：始终返回1

     //getMinSplitSize(job)：获取” mapred.min.split.size”的值，默认为1

     long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));

     //getMaxSplitSize(job)：获取"mapred.max.split.size"的值，

     //默认配置文件中并没有这一项，所以其默认值为” Long.MAX_VALUE”，即2^63 – 1

     long maxSize = getMaxSplitSize(job);

     // generate splits

     List<InputSplit> splits = new ArrayList<InputSplit>();

     List<FileStatus>files = listStatus(job);

     for (FileStatus file: files) {

       Path path = file.getPath();

       FileSystem fs = path.getFileSystem(job.getConfiguration());

       long length = file.getLen();

       BlockLocation[] blkLocations = fs.getFileBlockLocations(file, 0, length);

       if ((length != 0) && isSplitable(job, path)) {

         long blockSize = file.getBlockSize();

         //计算split大小

         long splitSize = computeSplitSize(blockSize, minSize, maxSize);

         //计算split个数

         long bytesRemaining = length;    //bytesRemaining表示剩余字节数

         while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) { //SPLIT_SLOP=1.1

           int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);

           splits.add(new FileSplit(path, length-bytesRemaining, splitSize,

                                    blkLocations[blkIndex].getHosts()));

           bytesRemaining -= splitSize;

         }

         if (bytesRemaining != 0) {

           splits.add(new FileSplit(path, length-bytesRemaining, bytesRemaining,

                      blkLocations[blkLocations.length-1].getHosts()));

         }

       } else if (length != 0) {

         splits.add(new FileSplit(path, 0, length, blkLocations[0].getHosts()));

       } else {

         //Create empty hosts array for zero length files

         splits.add(new FileSplit(path, 0, length, new String[0]));

       }

     }

     // Save the number of input files in the job-conf

     job.getConfiguration().setLong(NUM_INPUT_FILES, files.size());

     LOG.debug("Total # of splits: " + splits.size());

     return splits;

   }

　　首先计算分片的下限和上限：minSize和maxSize，具体的过程在注释中已经说清楚了。接下来用这两个值再加上blockSize来计算实际的split大小，过程也很简单，具体代码如下：

 protected long computeSplitSize(long blockSize, long minSize,

                                   long maxSize) {

     return Math.max(minSize, Math.min(maxSize, blockSize));

   }

　　接下来就是计算实际的分片个数了。针对每个输入文件，计算input split的个数。while循环的含义如下：

　　a) 文件剩余字节数/splitSize>1.1，创建一个split，这个split的字节数=splitSize，文件剩余字节数=文件大小 - splitSize

　　b) 文件剩余字节数/splitSize<1.1，剩余的部分全都作为一个split(这主要是考虑到，不用为剩余的很少的字节数一些启动一个Map Task)

　　我们发现，在默认配置下，split大小和block大小是相同的。这是不是为了防止这种情况：

一个split如果对应的多个block，若这些block大多不在本地，则会降低Map Task的本地性，降低效率。

　　到这里split的划分就介绍完了，但是有两个问题需要考虑：

1、如果一个record跨越了两个block该怎么办？

　　这个可以看到，在Map Task读取block的时候，每次是读取一行的，如果发现块的开头不是上一个文件的结束，那么抛弃第一条record，因为这个record会被上一个block对应的Map Task来处理。那么，第二个问题来了：

2、上一个block对应的Map Task并没有最后一条完整的record，它又该怎么办？

　　一般来说，Map Task在读block的时候都会多读后续的几个block，以处理上面的这种情况。不过这部分的代码我还没有看到，等看到了再补充吧。

　　本文基于hadoop1.2.1

　　如有错误，还请指正

　　参考文章：《Hadoop技术内幕深入理解MapReduce架构设计与实现原理》董西成

　　转载请注明出处：http://www.cnblogs.com/gwgyk/p/4113929.html

hadoop输入分片计算(Map Task个数的确定)的更多相关文章

hadoop 分片与分块，map task和reduce task的理解
分块:Block HDFS存储系统中,引入了文件系统的分块概念(block),块是存储的最小单位,HDFS定义其大小为64MB.与单磁盘文件系统相似,存储在 HDFS上的文件均存储为多个块,不同的是, ...
如何在hadoop中控制map的个数
hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数.但是通过这种方式设置map的个数,并不是每次都有效的.原因是mapred.map. ...
如何在hadoop中控制map的个数分类： A1_HADOOP 2015-03-13 20:53 86人阅读评论(0) 收藏
hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数.但是通过这种方式设置map的个数,并不是每次都有效的.原因是mapred.map. ...
（转）通过input分片的大小来设置map的个数
摘要通过input分片的大小来设置map的个数 map inputsplit hadoop 前言:在具体执行Hadoop程序的时候,我们要根据不同的情况来设置Map的个数.除了设置固定的每个节点上可 ...
字符拆分存入Map计算单词的个数
///计算从命令行输入单词的种类与个数//Map<key,Value>Key-->单词:Value-->数量
mapreduce map 的个数
在map阶段读取数据前,FileInputFormat会将输入文件分割成split.split的个数决定了map的个数.影响map个数(split个数)的主要因素有: 1) 文件的大小.当块(dfs. ...
MapReduce深入理解输入和输出格式（1）-输入分片与记录
一个输入分片( in put split)就是能够被单个map 操作处理的输入块. 每一个map 操作只处理一个输入分片,并且一个一个地处理每条记录,也就是一个键/值对.输入分片和记录都是逻辑上的, ...
${mapred.local.dir}选择策略--Map Task存放中间结果
上篇说了block在DataNode配置有多个${dfs.data.dir}时的存储策略,本文主要介绍TaskTracker在配置有多个${mapred.local.dir}时的选择策略. mapre ...
hadoop输入格式(InputFormat)
InputFormat接口(package org.apache.hadoop.mapreduce包中)里包括两个方法:getSplits()和createRecordReader(),这两个方法分别 ...

随机推荐

20-ES6（3）class基本语法
# Class基本语法关于es6的class简介: ES6提供了更接近传统语言的写法,引入了Class(类)这个概念,作为对象的模板.通过class关键字,可以定义类.基本上,ES6的class可以 ...
SQLite数据库
数据持久化: 1.文件存储适合用于存储一些简单的文本数据或二进制数据存储数据:openFileOutput(文件名,操作模式),返回值为一个FileOutputStream对象,借助FileOut ...
Exception in thread "main" java.lang.ExceptionInInitializerError
Exception in thread "main" java.lang.ExceptionInInitializerErrorCaused by: java.util.Missi ...
js压缩图片base64长度
var myCanvas=$('.img-container > img').cropper('getCroppedCanvas'); (function (base64){ var image ...
nginx缓冲区优化
关于缓冲, 主要是合理设置缓冲区大小, 尽量避免缓冲到硬盘时的情况 proxy_buffering proxy_buffering这个参数用来控制是否打开后端响应内容的缓冲区,如果这个设置为off,那 ...
在ionic/cordova中使用极光推送插件（jpush）
Stpe1:创建一个项目(此处使用的是tab类型的项目,创建方式可参照我前一篇如何离线创建Ionic1项目) Stpe2:修改项目信息打开[config.xml]修改下图内容:
PDF二次开发_iStylePDF表单域的填充
wo讲到PDF表单,我们首先需要认识Adobe定义的PDF表单有哪些.以下是我从网上搜索到的简单介绍: PDF 表单简介 PDF 是可移植文档格式(Portable Document Format)的 ...
团队作业week14
0 如果你的团队来了一个新队员,有一台全新的机器,你们是否有一个文档,只要设置了相应的权限,她就可以根据文档,从头开始搭建环境, 并成功地把最新.最稳定版本的软件编译出来,并运行必要的单元测试?(在这 ...
javascript中的窗口和框架
框架: 在网络上我们可以看到很多WEB应用程序都是使用框架(frame)来分隔浏览器窗口的,就想一块块玻璃隔板把窗口分隔成好几个小窗口,并且可以在不同的小窗口中加载显示不同的页面,这样在我们看来好像是 ...
php7 httpd 2.4 编译
1.获取源码httpd-2.4.23.tar.gz php-7.1.0.tar.gz,安装顺序必须是先安装http然后php,lnmp同理 2.安装编译环境和php.httpd依赖包,红色字体 ...

hadoop输入分片计算(Map Task个数的确定)

hadoop输入分片计算(Map Task个数的确定)的更多相关文章

随机推荐

热门专题