MapReduce优化一（改变切片大小和Shuffle过程Reduce占用堆大小）

/*为防止处理超大作业时超时，将io时间设为1小时
       *
       <property>
            <name>dfs.datanode.socket.write.timeout</name>
            <value>6000000</value>
        </property>
        <property>
            <name>dfs.socket.timeout</name>此参数已经废弃，使用dfs.client.socket-timeout
            <value>6000000</value>
        </property>
        *
       */
       Configuration conf = new Configuration();
       conf.set("dfs.client.block.write.replace-datanode-on-failure.enable", "false");
       conf.set("dfs.datanode.socket.write.timeout", "7200000");
       //Configuration.deprecation: dfs.socket.timeout is deprecated. Instead, use dfs.client.socket-timeout
       conf.set("dfs.client.socket-timeout", "7200000");
       //Default 0.7, JavaHeapSize在总的堆大小中shuffle占内存的百分比
       conf.set("mapreduce.reduce.shuffle.input.buffer.percent", "0.6");
       //Default 0.25, a single shuffle use max memory percent
       conf.set("mapreduce.reduce.shuffle.memory.limit.percent", "0.10");
       //当遇到超大文件时，将默认的128MB改为最小切分块为256MB。mapreduce.min.split.size属性已废弃，使用新API属性mapreduce.input.fileinputformat.split.minsize/FileInputFormat.setMinInputSplitSize(job, 268435456);
       conf.set("mapreduce.input.fileinputformat.split.minsize", "268435456");
       //当遇到超大文件时，将默认的128MB改为最大切分块为512MB。mapreduce.max.split.size属性已废弃，使用新API属性mapreduce.input.fileinputformat.split.maxsize/FileInputFormat.setMaxInputSplitSize(job, 536870912);
       conf.set("mapreduce.input.fileinputformat.split.maxsize", "536870912");;
        //每个Map任务分配的内存使用量，默认1024mb
        conf.set("mapreduce.map.memory.mb", "5120");
        //每个Reduce任务分配的内存使用量，默认1024mb
       conf.set("mapreduce.reduce.memory.mb", "5120");

        /**对MapReduce应用分配jvm堆内存使用，如果单个Map处理数据量较大报： GC overhead limit exceeded则通过如下设置解决*/
        //对map最大的资源限制
       conf.set("mapreduce.map.memory.mb","5000");
       //对map中对jvm child设置最大的堆大小
       conf.set("mapreduce.map.java.opts","-Xmx5000m");
       //对reduce最大的资源限制
       conf.set("mapreduce.reduce.memory.mb","5000");
       //对reduce中对jvm child设置最大的堆大小
       conf.set("mapreduce.reduce.java.opts","-Xmx5000m");

MapReduce优化一（改变切片大小和Shuffle过程Reduce占用堆大小）的更多相关文章

hadoop的mapReduce和Spark的shuffle过程的详解与对比及优化
https://blog.csdn.net/u010697988/article/details/70173104 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spar ...
MapReduce:详解Shuffle过程(转)
/** * author : 冶秀刚 * mail : dennyy99@gmail.com */ Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方.要想理解MapRedu ...
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方.要想理解MapReduce, Shuffle是必须要了解的.我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑, ...
MapReduce:Shuffle过程的流程
Shuffle过程是MapReduce的核心,Shuffle描述着数据从map task输出到reduce task输入的这段过程. 1.map端
[转]MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方.要想理解MapReduce, Shuffle是必须要了解的.我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑, ...
【转】MapReduce：详解Shuffle过程
——转自:{http://langyu.iteye.com/blog/992916} Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方.要想理解MapReduce, Shuffle ...
MapReduce:具体解释Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方.要想理解MapReduce, Shuffle是必需要了解的.我看过非常多相关的资料,但每次看完都云里雾里的绕着,非常难理清大致的逻 ...
MapReduce Shuffle过程
MapReduce Shuffle 过程详解一.MapReduce Shuffle过程 1. Map Shuffle过程 2. Reduce Shuffle过程二.Map Shuffle过程 1. ...
MapReduce shuffle过程剖析及调优
MapReduce简介在Hadoop MapReduce中,框架会确保reduce收到的输入数据是根据key排序过的.数据从Mapper输出到Reducer接收,是一个很复杂的过程,框架处理了所有问 ...

随机推荐

PowerDesigner 生成带凝视SQL 各个版本号通用10(12、15)
做数据库是设计时最苦恼的事就是用PowerDesigner工具设计完数据库运行SQL文件后没有凝视.那么怎么才干让PowerDesigner设计完有凝视呢,下边教你一个笨的方法,方法尽管笨,可是能实现 ...
Android四大组件——Service
Service相关链接 Service初涉 Service进阶 Service精通 Service是Android系统中的一种组件,它跟Activity的级别差不多,但是它不能自己运行,只能后台运行, ...
Java基础知识强化30：String类之String的特点（String为什么是final）
1. String字符串特点: 一旦被赋值,字符串值就不能改变. 这里String是final修饰的,具有不可继承性. 2. 为什么String是final? 主要是为了"效率" ...
【转】Android开源项目分类便于查看
之前转载了一个开源项目的文章,发现那些都是没有系统的总结,这里又转载一篇有系统总结的文章. Android开源项目系列汇总已完成,包括: Android开源项目第一篇——个性化控件(View)篇 An ...
python单元测试之unittest
unittest是python标准库,从2.1开始就有. 标准的使用流程: 1:实现一个unittest.TestCase的子类 2:在其中定义以_test开头的实例函数 3:用unittest.ma ...
“The SQL Server license agreenment cannot be located for the selected edition.”MSSQL安装问题
今天老邹又来吐槽了.今天不和IE7较劲了.说点别的吧. 我呢什么软件都喜欢装最新版的,这部刚出来windows 8.1就赶紧装上了,随后就用上了vs2013.前天看到新闻说微软已经发布了sql ser ...
oracle存储过程调试方法
PL/SQL中为我们提供了[调试存储过程]的功能,可以帮助你完成存储过程的预编译与测试. 点击要调试的存储过程,右键选择TEST 如果需要查看变量,当然调试都需要.在右键菜单中选择Add debug ...
Linux下快速搭建DNS服务器
一.术语解释:TTL Time To Live 缓冲保留时间ORIGIN 属于哪个域@ 代指域IN 开头需要空格SOA 一行记录类型的开始参数:forwarders {} 指向自己无法解析的域名跳转到 ...
Ubuntu 11.10 安装GMONE3，卸载 UNITY和UNITY 2D
Ubuntu 11.10安装GNOME3: 1)sudo apt-get install gnome-shell sudo apt-get install gnome-themes* (或者 ...
keepalived + nginx
本文主要介绍keepalived的安装,Nginx自行解决,也可以使用httpd.随便任何服务都可以... keepalived 官网http://www.keepalived.org/index.h ...

MapReduce优化一（改变切片大小和Shuffle过程Reduce占用堆大小）

MapReduce优化一（改变切片大小和Shuffle过程Reduce占用堆大小）的更多相关文章

随机推荐

热门专题