问题

MapReduce Application中mapper的数目和分片的数目是一样的，可是分片数目和什么有关呢？

默认情况下。分片和输入文件的分块数是相等的。也不全然相等，假设block size大小事128M，文件大小为128.1M，文件的block数目为2。可是application执行过程中。你会发现分片数目是1，而不是2，当中的机理，后面会分析
有的程序会设置map的数目，那么map数目是如何影响分片的数目的呢？
假设文件大小为0，是否会作为一个分片传给map任务？

流程

FileInputFormat.getSplits返回文件的分片数目，这部分将介绍其执行流程，后面将粘贴其源代码并给出凝视

通过listStatus()获取输入文件列表files，当中会遍历输入文件夹的子文件夹，并过滤掉部分文件。如文件_SUCCESS
获取全部的文件大小totalSIze
goalSIze=totalSize/numMaps。

numMaps是用户指定的map数目
files中取出一个文件file
计算splitSize。splitSize=max(minSplitSize,min(file.blockSize,goalSize))，当中minSplitSize是同意的最小分片大小。默觉得1B
后面依据splitSize大小将file分片。在分片的时候，假设剩余的大小不大于splitSize*1.1，且大于0B的时候。会将该区域整个作为一个分片。

这样做是为了防止一个mapper处理的数据太小
将file的分片增加到splits中
返回4。直到将files遍历完
结束。返回splits

源代码

 public InputSplit[] getSplits(JobConf job, int numSplits)

    throws IOException {

	  //获取输入文件列表files，当中会遍历输入文件夹的子文件夹，并过滤掉部分文件，如文件_SUCCESS

    FileStatus[] files = listStatus(job);

    // Save the number of input files for metrics/loadgen

    job.setLong(NUM_INPUT_FILES, files.length);

    long totalSize = 0;                           // compute total size

    for (FileStatus file: files) {                // check we have valid files

      if (file.isDirectory()) {

        throw new IOException("Not a file: "+ file.getPath());

      }

      totalSize += file.getLen();

    }

    /*

     * numSplits为设置的map数目

     * 期待的分片大小

     */

    long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits);

    /*

     * FileInputFormat.SPLIT_MINSIZE为參数值：mapreduce.input.fileinputformat.split.minsize，默觉得0

     * minSplitSize默觉得1

     */

     long minSize = Math.max(job.getLong(org.apache.hadoop.mapreduce.lib.input.

      FileInputFormat.SPLIT_MINSIZE, 1), minSplitSize);

    // generate splits

    ArrayList<FileSplit> splits = new ArrayList<FileSplit>(numSplits);

    NetworkTopology clusterMap = new NetworkTopology();

    for (FileStatus file: files) {

      Path path = file.getPath();

      long length = file.getLen();

      if (length != 0) {

        FileSystem fs = path.getFileSystem(job);

        BlockLocation[] blkLocations;

        if (file instanceof LocatedFileStatus) {

          blkLocations = ((LocatedFileStatus) file).getBlockLocations();

        } else {

          blkLocations = fs.getFileBlockLocations(file, 0, length);

        }

        if (isSplitable(fs, path)) {

          long blockSize = file.getBlockSize();

          /*

           * 计算分片的大小，每个文件都要计算一次

           *computeSplitSize的计算公式为 Math.max(minSize, Math.min(goalSize, blockSize));

           */

          long splitSize = computeSplitSize(goalSize, minSize, blockSize);

          long bytesRemaining = length;

          while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {

            String[] splitHosts = getSplitHosts(blkLocations,

                length-bytesRemaining, splitSize, clusterMap);

            splits.add(makeSplit(path, length-bytesRemaining, splitSize,

                splitHosts));

            bytesRemaining -= splitSize;

          }

          if (bytesRemaining != 0) {

            String[] splitHosts = getSplitHosts(blkLocations, length

                - bytesRemaining, bytesRemaining, clusterMap);

            splits.add(makeSplit(path, length - bytesRemaining, bytesRemaining,

                splitHosts));

          }

        } else {

          String[] splitHosts = getSplitHosts(blkLocations,0,length,clusterMap);

          splits.add(makeSplit(path, 0, length, splitHosts));

        }

      } else {

        //Create empty hosts array for zero length files

        splits.add(makeSplit(path, 0, length, new String[0]));

      }

    }

    LOG.debug("Total # of splits: " + splits.size());

    return splits.toArray(new FileSplit[splits.size()]);

  }

总结

看源代码还是非常实用的。非常多时候，博客或者书介绍的不是非常中肯，或者会有错误。看源代码就不会出现这些问题。

MapReduce获取分片数目的更多相关文章

实训任务05 MapReduce获取成绩表的最高分记录
实训任务05 MapReduce获取成绩表的最高分记录实训1:统计用户纺问次数任务描述: 统计用户在2016年度每个自然日的总访问次数.原始数据文件中提供了用户名称与访问日期.这个任务就是要获取 ...
ios获取内核数目
#include <mach/mach_host.h> unsigned int countCores() { host_basic_info_data_t hostInfo; mach_ ...
MapReduce中TextInputFormat分片和读取分片数据源码级分析
InputFormat主要用于描述输入数据的格式(我们只分析新API,即org.apache.hadoop.mapreduce.lib.input.InputFormat),提供以下两个功能: (1) ...
Hadoop学习（4）-- MapReduce
MapReduce是一种用于大规模数据集的并行计算编程模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.其主要思想Map(映射)和Reduce(规约)都是从函数是编程语言中借鉴而来的 ...
Mapreduce执行过程分析(基于Hadoop2.4)——(一)
1 概述该瞅瞅MapReduce的内部运行原理了,以前只知道个皮毛,再不搞搞,不然怎么死的都不晓得.下文会以2.4版本中的WordCount这个经典例子作为分析的切入点,一步步来看里面到底是个什么情 ...
Mapreduce运行过程分析(基于Hadoop2.4)——(一)
1 概述该瞅瞅MapReduce的内部执行原理了,曾经仅仅知道个皮毛,再不搞搞,不然怎么死的都不晓得.下文会以2.4版本号中的WordCount这个经典样例作为分析的切入点.一步步来看里面究竟是个什 ...
Hadoop InputFormat 输入文件分片
1. Mapper 与 Reducer 数量对于一个默认的MapReduce Job 来说,map任务的数量等于输入文件被划分成的分块数,这个取决于输入文件的大小以及文件块的大小(如果此文件在 HD ...
MapReduce源码刨析
MapReduce编程刨析: Map map函数是对一些独立元素组成的概念列表(如单词计数中每行数据形成的列表)的每一个元素进行指定的操作(如把每行数据拆分成不同单词,并把每个单词计数为1),用户可以 ...
NoSQL生态系统——hash分片和范围分片两种分片
13.4 横向扩展带来性能提升很多NoSQL系统都是基于键值模型的,因此其查询条件也基本上是基于键值的查询,基本不会有对整个数据进行查询的时候.由于基本上所有的查询操作都是基本键值形式的,因此分片通 ...

随机推荐

nutz配置druid监控
druid 提供了一个web端的监控页面, 搭建起来不算麻烦, 建议添加. 打开web.xml, 在nutz的filter之前, 加入Web监控的配置 <filter> <filte ...
Android（java）学习笔记203：JNI之NDK开发步骤
1. NDK开发步骤(回忆一下HelloWorld案例): (1)创建工程 (2)定义native方法 (3)创建jni文件夹 (4)创建c源文件放到jni文件夹 (5)拷贝jni.h头文件到jni目 ...
pringBoot Controller接收参数的几种常用方式
第一类:请求路径参数1.@PathVariable 获取路径参数.即url/{id}这种形式.2.@RequestParam 获取查询参数.即url?name=这种形式例子 GEThttp://loc ...
RabbitMQ 基础概念介绍
AMQP 消息模型 RabbitMQ 是基于 AMQP(高级消息队列协议)的一个开源实现,其内部实际也是 AMQP 的基本概念.
python爬取网页图片
# html:网页地址 def getImg2(html): soup = BeautifulSoup(html, 'html.parser') href_regex = re.compile(r'^ ...
Centos7配置ThinkPHP5.0完整过程（一）
在Centos中配置PHP服务器环境,首先要安装Apache的http服务,然后安装php解析环境,最后再配置ThinkPHP5.0. 首先安装HTTP sudo yum install httpd ...
vsftp虚拟用户方式访问
需求:外部人员需要对公司服务器上某个文件夹内容进行读写操作文件目录信息:/opt/abc drwxr-xr-x 9 www www 4096 12月 4 13:02 abc #注 ...
装饰器（python）
一,装饰器定义:本质就是函数,功能是为其他函数添加新功能原则:1.不修改被装饰函数的源代码(开放封闭原则)2.为被装饰函数添加新功能后,不修改被修饰函数的调用方式3.装饰器=高阶函数+函数嵌套+闭包高 ...
反连接NOT EXISTS子查询中有or 谓词连接条件SQL优化一例
背景今天在日常数据库检查中,发现一SQL运行时间特别长,于是抓取出来,进行优化. 优化前: 耗时:503s 返回:0 SQL代码 SELECT * FROM MM_PAYABLEMONEY_TD P ...
PHP典型功能与Laravel5框架开发学习笔记
步骤一:PHP的Redis应用及HTTP协议一.Redis初识 1.Linux下安装redis:具体看官网:https://redis.io/download:以下为以个人习惯的安装目录进行的red ...

MapReduce获取分片数目

问题

流程

源代码

总结

MapReduce获取分片数目的更多相关文章

随机推荐

热门专题