Hadoop Mapreduce 中的FileInputFormat类的文件切分算法和host选择算法

wgyang2016 2024-08-30 22:40:22 原文

文件切分算法

文件切分算法主要用于确定InputSplit的个数以及每个InputSplit对应的数据段。 FileInputFormat以文件为单位切分成InputSplit。对于每个文件，由以下三个属性值确定其对应的InputSplit的个数。

goalSize：根据用户期望的InputSplit数据计算，即totalSize/numSplit。totalSize为文件总大小；numSplit为用户设定的Map Task个数，默认情况下是1.
minSize：InputSplit的最小值，由配置参数mapred.min.split.size确定，默认是1.
blockSize:文件在HDFS中存储的block大小，不同文件可能不同，默认是64MB.

这三个参数共同决定InputSplit的最终大小，计算方式：
splitSize = max{mainSize,min{goalSize,biockSize}}

一旦确定splitSize值后，FileInputFormat将文件依次切成大小为splitSize的InputSplit，最后剩下不足splitSize的数据块单独成为一个InputSplit。

host选择算法

InputSplit切分方案确定之后，需要确定每个InputSplit的元数据信息。元数据信息通常由四部分组成：<file,start,length,host>，分别表示InputSplit所在的文件、起始位置、长度以及所在的host（节点）列表。其中，前面三项容易确定，难点在于host列表的选择方法。

Hadoop将数据本地性按照代价划分为三个等级：node locality、rack locality和data center locality。在进行任务调度时，会依次考虑这三个节点的locality，即有限让空闲资源处理本节点上的数据，如果节点上没有任何可处理的数据，则处理同一个机架上的数据，最差的情况是处理其他机架上的数据，但是必须位于同一个数据中心。

FileInputFormat设计了一个简单有效的启发式算法：首先按照rack包含的数据量对rack进行排序，然后在rack内部按照每个node包含的数据量对node排序，最后取前N个node的host作为InputSplit的host列表，这里的N为block的副本数。当任务调度器调度Task时，只要将Task调度给位于host列表中的节点，就认为该Task满足本地性。

当使用基于FileInputFormat实现InputFormat时，为了提高Map Task的数据本地性，应尽量使InputSplit大小与bolck大小相同。

Hadoop Mapreduce 中的FileInputFormat类的文件切分算法和host选择算法的更多相关文章

WordCount作业提交到FileInputFormat类中split切分算法和host选择算法过程源码分析
参考 FileInputFormat类中split切分算法和host选择算法介绍以及 Hadoop2.6.0的FileInputFormat的任务切分原理分析(即如何控制FileInputForm ...
在Hadoop中重写FileInputFormat类以处理二进制格式存储的整数
近期開始使用MapReduce,发现网上大部分样例都是对文本数据进行处理的,也就是说在读取输入数据时直接使用默认的TextInputFormat进行处理就可以.对于文本数据处理,这个类还是能满足一部分 ...
MapReduce 示例：减少 Hadoop MapReduce 中的侧连接
摘要:在排序和reducer 阶段,reduce 侧连接过程会产生巨大的网络I/O 流量,在这个阶段,相同键的值被聚集在一起. 本文分享自华为云社区<MapReduce 示例:减少 Hadoop ...
关于MapReduce中自定义分区类（四）
MapTask类在MapTask类中找到run函数 if(useNewApi){ runNewMapper(job, splitMetaInfo, umbilical, reporter ...
关于MapReduce中自定义分组类（三）
Job类 /** * Define the comparator that controls which keys are grouped together * for a single ...
关于MapReduce中自定义Combine类（一）
MRJobConfig public static fina COMBINE_CLASS_ATTR 属性COMBINE_CLASS_ATTR = "mapreduce.j ...
Hadoop MapReduce中压缩技术的使用
Compression and Input Splits 当我们使用压缩数据作为MapReduce的输入时,需要确认数据的压缩格式是否支持切片? 假设HDFS中有一个未经压缩的大小为1GB的文 ...
Haoop Mapreduce 中的FileOutputFormat类
FileOutputFormat类继承OutputFormat,需要提供所有基于文件的OutputFormat实现的公共功能,主要有以下两点: (1)实现checkOutputSpecs方法 chec ...
Hadoop : MapReduce中的Shuffle和Sort分析
地址 MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据.第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Sch ...

随机推荐

hdu 5782(kmp+hash)
Cycle Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total Submi ...
bzoj1050
最小生成树其实这道题是最小生成树的变种,我们发现答案不一定在最小/最大生成树上,最短路算法也不可行,因为我们我们并不是希望最小值尽量的大,最大值尽量的小,这样不一定是最优的,那么我们枚举最小的边,然 ...
17年day3
/* 嗯,又一天. 时日无多了,还能蹦哒几天? 上午依旧考试,日常挂T1,读错题.还是好困. 兔子说明天晚上要请我们吃水饺~~~~去年就没这待遇. 下午打开邮箱一看,咦?嗯. 昨晚做噩梦NOIP考了状 ...
ssm lodop打印图片不显示
在打印预览的时候图片就是不显示最终解决方案就是修改过滤器
webservice 权限控制
webservice 如何限制访问,权限控制?1.服务器端总是要input消息必须携带用户名.密码信息如果不用cxf框架,SOAP消息(xml片段)的生成.解析都是有程序员负责 2.拦截器为了让程 ...
图论 HDOJ 5348 MZL's endless loop
题目传送门 /* 题意:给一个n个点,m条边的无向图,要求给m条边定方向,使得每个定点的出入度之差的绝对值小于等于1. 输出任意一种结果图论:一个图,必定存在偶数个奇度顶点.那么从一个奇度定点深搜, ...
magento后台开发学习笔记（入门实例向）
目的是做一个grid,参考博客http://www.sunzhenghua.com/magento-admin-module-development-part1-grid-forms-tabs-con ...
全面学习ORACLE Scheduler特性(7)Scheduler抛出的Events
四.使用Events Event直译对应的中文解释是指事件,不过单纯讲事件毕竟太抽象了,举个示例来形容吧.A(对应某个应用程序,或者是ORACLE中的进程)在干活时突然眉头一皱说道,不好,前方有情况, ...
C语言常见问题总结
1.多次运行程序解决方法: 错误原因是,已经编译运行出一个exe,没有关闭此exe,又点击编译运行. 应该将之前运行出的exe关闭,再来运行代码 2.单精度类型和双精度类型如何区分使用... 解决方 ...
Pro ASP.NET Core MVC 第6版第二章（前半章）
目录第二章第一个MVC 应用程序学习一个软件开发框架的最好方法是跳进他的内部并使用它.在本章,你将用ASP.NET Core MVC创建一个简单的数据登录应用.我将它一步一步地展示,以便你能看清 ...