Hadoop新版本中map任务待处理split大小的计算方法

华电岳黎明 2024-08-11 12:17:41 原文

1. split大小的计算公式

　　　minSize=max{minSplitSize,mapred.min.split.size} （minSplitSize大小默认为1B）

　　　maxSize=mapred.max.split.size（不在配置文件中指定时大小为Long.MAX_VALUE）

　　　splitSize=max{minSize,min{maxSize,blockSize}}(注意，blockSize为文件在hdfs中的块大小，比如我们先配置的dfs.block.size的值为67108864，也即64MB，后向分布式文件系统中存入一个1GB大小的文件A，该文件在hdfs中的块大小为64MB；当我们更改dfs.block.size的值为33554432，即32MB是，此时A文件在分布式文件系统中的blockSize仍为64M，切记啊，这个就曾迷糊俺好长时间.....)

　　 mapred.min.split.size、mapred.max.split.size、blockSize均可以再配置文件中配置，前面两个在mapred-site.xml中，最后一个可在在hdfs-site.xml中进行配置,单位均为B。

2.map数是这样计算方式

　　文件大小/splitSize>1.1，创建一个split0，文件剩余大小=文件大小-splitSize

　　　.....

　　剩余文件大小/splitSize<=1.1 将剩余的部分作为一个split

　　每一个分片对应一个map任务，这样map任务的数目也就显而易见啦。

Hadoop新版本中map任务待处理split大小的计算方法的更多相关文章

hadoop中map和reduce的数量设置
hadoop中map和reduce的数量设置,有以下几种方式来设置一.mapred-default.xml 这个文件包含主要的你的站点定制的Hadoop.尽管文件名以mapred开头,通过它可以控制 ...
【Hadoop】三句话告诉你 mapreduce 中MAP进程的数量怎么控制？
1.果断先上结论 1.如果想增加map个数,则设置mapred.map.tasks 为一个较大的值. 2.如果想减小map个数,则设置mapred.min.split.size 为一个较大的值. 3. ...
Hadoop计算中的Shuffle过程(转)
Hadoop计算中的Shuffle过程作者:左坚来源:清华万博时间:2013-07-02 15:04:44.0 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方.要想理解Ma ...
Hadoop和YARN :map+shuffle+reduce走读
今天做了一个hadoop分享,总结下来,包括mapreduce,及shuffle深度讲解,还有YARN框架的详细说明等. v\:* {behavior:url(#default#VML);} o\:* ...
MapReduce 示例：减少 Hadoop MapReduce 中的侧连接
摘要:在排序和reducer 阶段,reduce 侧连接过程会产生巨大的网络I/O 流量,在这个阶段,相同键的值被聚集在一起. 本文分享自华为云社区<MapReduce 示例:减少 Hadoop ...
Spark中map与flatMap
map将函数作用到数据集的每一个元素上,生成一个新的分布式的数据集(RDD)返回 map函数的源码: def map(self, f, preservesPartitioning=False): &q ...
mapreduce 中 map数量与文件大小的关系
学习mapreduce过程中, map第一个阶段是从hdfs 中获取文件的并进行切片,我自己在好奇map的启动的数量和文件的大小有什么关系,进过学习得知map的数量和文件切片的数量有关系,那文件的大小 ...
项目中Map端内存占用的分析
最近在项目中开展重构活动,对Map端内存尽量要省一些,当前的系统中Map端内存最高占用大概3G左右(设置成2G时会导致Java Heap OOM).虽然个人觉得占用不算多,但是显然这样的结果想要试 ...
[转帖]2018年的新闻: 国内首家！腾讯主导Apache Hadoop新版本发布
国内首家!腾讯主导Apache Hadoop新版本发布 https://blog.csdn.net/weixin_34194317/article/details/88811258 腾讯也挖了很多 ...

随机推荐

一致性Hash算法及使用场景
一.问题产生背景在使用分布式对数据进行存储时,经常会碰到需要新增节点来满足业务快速增长的需求.然而在新增节点时,如果处理不善会导致所有的数据重新分片,这对于某些系统来说可能是灾难性的. 那 ...
js ie8不支持项总结
不支持filter,trim 要用jquery 的$filter,$trim 数组不能用for in 要用for 数组没有indextOf方法不能使用关键字,如true ,default IE8 ...
Java简单算法--求100以内素数
package cn.magicdu.algorithm; /** * 打印素数 * * @author xiaoduc * */ public class Prim { public static ...
关于error: cannot connect to daemon的解决办法
执行adb devices时,如果出现以下错误: * daemon not running. starting it now on port 5037 * ADB server didn't ACK ...
Android更改桌面应用程序launcher的两种方式
http://blog.csdn.net/mdx20072419/article/details/9632779/ launcher,也就是android的桌面应用程序.下图是我正在使用的魅族手机的l ...
Java实战之04JavaWeb-06DBUtils
一.DBUtils 1．DBUtils的简介 Commons DbUtils是Apache组织提供的一个对JDBC进行简单封装的开源工具类库,使用它能够简化JDBC应用程序的开发,同时也不会影响程序的 ...
OpenJudge/Poj 1321 棋盘问题
1.链接地址: http://bailian.openjudge.cn/practice/1321 http://poj.org/problem?id=1321 2.题目: 棋盘问题 Time Lim ...
iPad知识点记录
这两天玩了玩虚拟机安装Mac OS系统.iPad1的越狱以及利用iTunes将iPad2的系统升级到iOS8.1,这里将一些参考资源以及关键点记录一下. 一.虚拟机安装Mac OS 首先你的系统要能够 ...
C#关于编码、解码相关问题
编码.解码技术是我们在程序中开发中经常使用到的,对一些敏感信息的存储,比如密码之类的,我们一般是不会直接以明文直接存储到数据库的,而是会通过各种算法,可以是现成的MD5(一种散列算法).或者是Hash ...
不要停留在表面，MVC 3 我们要深入一些
其实在MVC 中只存在三大组件,Model.View.Controller,其中Model用来作为业务逻辑处理,Controller负责的是Model和View的交互,View负责页面显示. 这是非常 ...