Yarn下Map数控制

public List<InputSplit> getSplits(JobContext job) throws IOException {
        long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));
        long maxSize = getMaxSplitSize(job);
 
        List splits = new ArrayList();
        List files = listStatus(job);
        for (FileStatus file : files) {
            Path path = file.getPath();
            long length = file.getLen();
            if (length != 0L) {
                FileSystem fs = path.getFileSystem(job.getConfiguration());
                BlockLocation[] blkLocations = fs.getFileBlockLocations(file,
                        0L, length);
                if (isSplitable(job, path)) {
                    long blockSize = file.getBlockSize();
                    long splitSize = computeSplitSize(blockSize, minSize,
                            maxSize);
 
                    long bytesRemaining = length;
                    while (bytesRemaining / splitSize > 1.1D) {
                        int blkIndex = getBlockIndex(blkLocations, length
                                - bytesRemaining);
                        splits.add(makeSplit(path, length - bytesRemaining,
                                splitSize, blkLocations[blkIndex].getHosts()));
 
                        bytesRemaining -= splitSize;
                    }
 
                    if (bytesRemaining != 0L) {
                        int blkIndex = getBlockIndex(blkLocations, length
                                - bytesRemaining);
                        splits.add(makeSplit(path, length - bytesRemaining,
                                bytesRemaining,
                                blkLocations[blkIndex].getHosts()));
                    }
                } else {
                    splits.add(makeSplit(path, 0L, length,
                            blkLocations[0].getHosts()));
                }
            } else {
                splits.add(makeSplit(path, 0L, length, new String[0]));
            }
        }
 
        job.getConfiguration().setLong(
                "mapreduce.input.fileinputformat.numinputfiles", files.size());
        LOG.debug("Total # of splits: " + splits.size());
        return splits;
    }

Yarn 下好像没了1*下的由用户设置预期的Map数

核心代码
 
long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));
 
getFormatMinSplitSize 默认返回1，getMinSplitSize 为用户设置的最小分片数, 如果用户设置的大于1，则为用户设置的最小分片数
long maxSize = getMaxSplitSize(job);
 
getMaxSplitSize为用户设置的最大分片数，默认最大为9223372036854775807L
 
long splitSize = computeSplitSize(blockSize, minSize,
                            maxSize);
 
protected long computeSplitSize(long blockSize, long minSize, long maxSize) {
        return Math.max(minSize, Math.min(maxSize, blockSize));
    }

测试文件大小 297M(311349250)

块大小128M

测试代码

测试1

FileInputFormat.setMinInputSplitSize(job, 301349250);
FileInputFormat.setMaxInputSplitSize(job, 10000);

测试后Map个数为1，由上面分片公式算出分片大小为301349250, 比 311349250小，理论应该为两个map, 再看分片函数

while (bytesRemaining / splitSize > 1.1D) {
                       int blkIndex = getBlockIndex(blkLocations, length
                               - bytesRemaining);
                       splits.add(makeSplit(path, length - bytesRemaining,
                               splitSize, blkLocations[blkIndex].getHosts()));

bytesRemaining -= splitSize;
}

只要剩余的文件大小不超过分片大小的1.1倍，则会分到一个分片中，避免开两个MAP，其中一个运行数据太小，浪费资源。

测试2

FileInputFormat.setMinInputSplitSize(job, 150*1024*1024);

FileInputFormat.setMaxInputSplitSize(job, 10000);

MAP 数为2

测试3

在原有的输入目录下，添加一个很小的文件,几K，测试是否会合并

FileInputFormat.setMinInputSplitSize(job, 150*1024*1024);
FileInputFormat.setMaxInputSplitSize(job, 10000);

Map数变为了3

看源代码

for (FileStatus file : files) {

}

原来输入是按照文件名来分片的，这个按照常理也能知道，不同的文件内容格式不同

总结，分片过程大概为，先遍历目标文件，过滤部分不符合要求的文件，然后添加到列表，然后按照文件名来切分分片（大小为前面计算分片大小的公式, 最后有个文件尾可能合并，其实常写网络程序的都知道），然后添加到分片列表，然后每个分片读取自身对应的部分给MAP处理

Yarn下Map数控制的更多相关文章

【转】hive优化之--控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置 ...
hive优化之------控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的 ...
hive优化之——控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务.主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文 ...
Hive任务优化--控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务.主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文 ...
hive 的map数和reduce如何确定（转）
转自博客:https://blog.csdn.net/u013385925/article/details/78245011(没找到原创者,该博客也是转发) 一. 控制hive任务中的map ...
Hive性能优化--map数和reduce数
转自http://superlxw1234.iteye.com/blog/1582880 一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多 ...
Linux Shell多进程并发以及并发数控制
1. 基础知识准备 1.1. linux后台进程 Unix是一个多任务系统,允许多用户同时运行多个程序.shell的元字符&提供了在后台运行不需要键盘输入的程序的方法.输入命令后,其后紧跟&a ...
马士兵hadoop第四课：Yarn和Map/Reduce配置启动和原理讲解
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
hive 处理小文件，减少map数
1.hive.merge.mapfiles,True时会合并map输出.2.hive.merge.mapredfiles,True时会合并reduce输出.3.hive.merge.size.per. ...

随机推荐

转使用utl_http获取某个http页面内容
#########1.ACL详细解释: 11g 对于XDB UTL_HTTP or others package 的权限管控进一步加强,如果需要使用到XDB 以下包 UTL_TCP, UTL_SMT ...
JVM发展史和Java运行时内存区域
目前三大主流JVM: Sun HotSpot:Sun于1997年收购Longview Technologies公司所得.Sun于2009年被Oracle收购. BEA JRockit:BEA于2002 ...
数据库版本管理工具flyway
引入flyway_core jar包 java 代码实现 public class FlywayMigration { @Resource private DataSource dataSource ...
SSM-@Transactional 注释不生效
1.在applicationConext.xml 中配置事务注解驱动  <tx:annotation-driven /> <!-- 配置事务 ...
你会用setTimeout吗
定义很简单 setTimeout() 方法用于在指定的毫秒数后调用函数或计算表达式. 广泛应用场景定时器,轮播图,动画效果,自动滚动等等上面一些应该是setTimeout在大家心中的样子,因为我们 ...
SEO--HTML meta标签总结
<!DOCTYPE html>  <html lang="zh-CN"> <h ...
JavaFX--第3天窗口布局
1.windows之间的交互 2.关闭程序 3.布局镶嵌 1.windows之间的交互我们要实现“确定”.“取消”之类的功能:就像我们平时使用Word的时候要关闭会提示要不要保存的信息. 步骤如下: ...
【转】js弹出框、对话框、提示框、弹窗总结
js弹出框.对话框.提示框.弹窗总结一.js的三种最常见的对话框 //====================== JS最常用三种弹出对话框 ======================== //弹 ...
grep和管道
1.管道命令: 可以连接多个Linux命令命令1 | 命令2 | 命令3 2.grep 正则表达式从文件或者字符串中搜索字符串格式:grep ‘’ file 返回符合规则的行需求:查询 ...
springboot整合mybatis+oracle
第一步认识springboot :springboot是为了解决配置文件多,各个组件不统一的问题,它省去了很多配置文件,同时实现了spring产品的整合. 创建springboot项目:通过选择sp ...

Yarn下Map数控制

Yarn下Map数控制的更多相关文章

随机推荐

热门专题