一、切片与MapTask的关系

1、概述

大家要注意区分切片与切块的区别:

  • 切块Block是HDFS物理上把数据分成一块一块的,默认是128M;
  • 数据切片:只是在逻辑上对输入进行分片,并不会在磁盘上分成片进行存储;而是分成片对数据进行处理。

物理上HDFS会把数据进行切块存储,但是当进行数据处理时,取出来的一块数据是整体是比较大的,需要对数据进行切片处理。如果切片设置为100M,那么一个数据块128M会被分成两个切片。

而MapTask的任务数量既与切片的个数有关又与文件个数有关。

2、MapTask的决定因素

  • 文件的大小:当切片为128M时,如果文件块的大于128M就会被分成2个split甚至多个。
  • 文件的个数:FileinputFormat按照文件分割split,并且只会分割大文件,即那些大小超过HDFS块的大小的文件。如果HDFS中dfs.block.size设置为128,而输入的文件有100个,则划分后的split个数至少为100个。
  • splitsize的大小:分片是按照splitsize的大小进行分割的,一个split的大小在没有设置的情况下,默认等于hdfs block的大小,但是程序可以通过两个参数进行设置,对splitsize进行调节。

InputSplit=Math.max(minSize, Math.min(maxSize, blockSize)

其中:

minSize=mapred.min.split.size

maxSize=mapred.max.split.size

我们可以在MapReduce程序的驱动部分添加如下代码:

TextInputFormat.setMinInputSplitSize(job,1024L); // 设置最小分片大小。

TextInputFormat.setMaxInputSplitSize(job,1024×1024×10L); // 设置最大分片大小。

3、总结

因此我们可以得出如下结论:MapTask的数量=小于split的文件个数+大于split的文件的个数/切片大小。

二、Shuffle的理解

1、概述

Shuffle:简单来说,就是将分布在集群中多个节点上的同一key的“键值对”信息,拉取到同一节点上;Shuffle过程中,各个节点上的相同key都会先写入到本地磁盘文件中,然后其他节点需要通过网络传输来去各个节点的磁盘拉取文件中相同key的值。而相同的key都被拉取到同一节点进行聚合操作时,还有可能因为内存不够,进而溢写到磁盘文件中。因此在Shuffle过程中,可能会发生大量的磁盘文件读取的IO操作,以及数据的网络传输操作。

2、通过一张图来解析一个Job的声明周期

如上图所以,一个job的声明周期如下所述:

  • 首先对数据进行split,切成不同的分片
  • 对不同的分片记性MapTask操作
  • 进入Shuffle过程,对相同的key值拉取到同一节点的分区中;
  • 进行Reduce聚合操作,将相同的key值进行统计;
  • 将Reduce结果放入到一个结果文件中。

谈谈对MapTask任务分配和Shuffle的理解的更多相关文章

  1. 谈谈我对Java中CallBack的理解

    谈谈我对Java中CallBack的理解 http://www.cnblogs.com/codingmyworld/archive/2011/07/22/2113514.html CallBack是回 ...

  2. 转载 CSDN 谈谈我对证券公司一些部门的理解(前、中、后台)

    谈谈我对证券公司一些部门的理解(前.中.后台) 2018年02月08日 15:11:07 unirong 阅读数:2165   文中对各大部门的分析都是从作者多年经历总结出来的有感之谈,尤其是前台的6 ...

  3. 谈谈我对证券公司一些部门的理解(前、中、后台)[z]

    [z]https://blog.csdn.net/UniRong/article/details/79289947 文中对各大部门的分析都是从作者多年经历总结出来的有感之谈,尤其是前台的6大部门(经纪 ...

  4. [每日一题]面试官问:谈谈你对ES6的proxy的理解?

    [每日一题]面试官问:谈谈你对ES6的proxy的理解? 关注「松宝写代码」,精选好文,每日一题 作者:saucxs | songEagle 一.前言 2020.12.23 日刚立的 flag,每日一 ...

  5. 谈谈Android 6.0运行时权限理解

    前言 谷歌在2015年8月份时候,发布了Android 6.0版本,代号叫做“棉花糖”(Marshmallow ),其中的很大的一部分变化,是在用户权限授权上,或许是感觉之前默认授权的不合理,现在6. ...

  6. 谈谈你对Java异常处理机制的理解

    先谈谈我的理解:异常处理机制可以说是让我们编写的程序运行起来更加的健壮,无论是在程序调试.运行期间发生的异常情况的捕获,都提供的有效的补救动作,任何业务逻辑都会存在异常情况,这时只需要记录这些异常情况 ...

  7. 【搞定面试官】谈谈你对JDK中Executor的理解?

    ## 前言 随着当今处理器计算能力愈发强大,可用的核心数量越来越多,各个应用对其实现更高吞吐量的需求的不断增长,多线程 API 变得非常流行.在此背景下,Java自JDK1.5 提供了自己的多线程框架 ...

  8. 谈谈我对 js原型链的理解

    想要学习 “原型链” 必须要认识什么是 “原型” 和 “原型链” 先理解一下普通的继承和原型的区别,下面写一段js代码来帮助理解: var Animal = function(){ // 动物抽象类 ...

  9. 谈谈对C#中反射的一些理解和认识(下)

    在上一篇中我们列举了一些反射的常规的使用,这一篇我们将介绍一些关于关于反射的高级属性,这些包括创建对反射的性能的总结以及如何优化反射性能,以及通过InvokeMember的方法如何去调用反射等等,通过 ...

随机推荐

  1. Spring源码试读--BeanFactory模拟实现

    动机 现在Springboot越来越便捷,如果简单的Spring应用,已无需再配置xml文件,基本可以实现全注解,即使是SpringCloud的那套东西,也都可以通过yaml配置完成.最近一年一直在用 ...

  2. Duilib程序添加托盘图标显示

    转载:https://www.zhaokeli.com/article/8266.html 温馨提示:技术类文章有它的时效性,请留意文章更新时间以及软件的版本 功能描述 实现点击关闭后,程序最小化到托 ...

  3. vmware 因误删Linux 虚拟机磁盘,无法启动处理方法

    有可能我们在做了以下误操作,导致Linux系统无法启动: 1). 磁盘损坏或虚拟机磁盘被我们删除了,而fstab文件没有更新: 2). 由于误操作或其它原因使动态库错误. 1. 首先准备好系统安装盘, ...

  4. warning:Pointer is missing a nullability type specifier (__nonnull or __nullable)

    当我们定义某个属性的时候  如果当前使用的编译器版本比较高(6.3+)的话经常会遇到这样一个警告:warning:Pointer is missing a nullability type speci ...

  5. cookie、session、localStorage、sessionStorage的区别

    cookie的机制 cookie是存储在用户本地终端上的数据.有时也用cookies,指某些网站为了辨别用户身份,进行session跟踪而存储在本地终端上的数据,通常经过加密. Cookie是服务器发 ...

  6. Centos610安装redis

    .tar.gz 解压 cd redis-5.0.4 编译 make PREFIX=/usr/local/redis install 测试 make test 测试执行失败,请安装tcl,具体参考第二步 ...

  7. How to backup on MSSQL by table level ?

    MSSQL is good database.   Unlike as Oracle,  it seems that can not backup sqlserver databasee tables ...

  8. 「CH6101」最优贸易

    「CH6101」最优贸易 传送门 考虑一种贪心的思想:我们要尽量买价格小的货物,并尽量高价转卖. 我们记 : \(mn[i]\) 为从点 \(1\) 走到点 \(i\) 经过的价格最小的货物的价格. ...

  9. Manacher 算法学习笔记

    算法用处: 解决最长回文子串的问题(朴素型). 算法复杂度 我们不妨先看看其他暴力解法的复杂度: \(O(n^3)\) 枚举子串的左右边界,然后再暴力判断是否回文,对答案取 \(max\) . \(O ...

  10. 由Nginx反向代理引出的JCaptcha验证码验证失败的问题

    搜索关键字: 1)Windows本地开发正常,部署到Linux远程服务器上JCaptcha验证失败 2)Linux远程服务器上JCpatcha验证失败 3)Nginx反向代理后JCaptcha验证失败 ...