看《Hadoop:权威指南》的时候收集了书上写的一些需要优化的参数,记录了一下子,给大家分享一下吧。

1.mapred.task.timeout
任务超时时间,默认是10分钟

2.mapred.map.max.attempts  mapred.reduce.max.attempts
默认任务失败重复次数为4

3.mapred.max.map.failures.percent mapred.reduce.map.failures.percent
不触发错误的失败的最大百分比

4.mapred.jobtracker.taskScheduler
作业调度算法设置,默认是FIFO

5.io.sort.mb io.sort.spill.percent
缓冲区大小默认为100MB,以及缓冲区阀值默认为0.8,超过80%就保存到硬盘

6.io.sort.factor
默认为10,一次只能合并10个溢出文件

7.mapred.compress.map.output
默认为false,不压缩输出文件
压缩算法由mapred.map.output.compression.codec指定

8.tracker.http.Threads
tasktracker用于默认为40的啦

9.mapred.reduce.parallel.copies
reduce复制map输出的线程数,默认是5个

10.mapred.inmem.merge.threshold
控制map输出阀值,如果reduce函数的内存需求不大,那么设置为0
mapred.job.reduce.input.buffer.percent设置为1,可以带来性能的提升。

11.io.sort.factor
合并因子,默认为10,意思是一次合并多少个Map输出
如果Map输出为50个文件,则每次把10个合并成一个文件,最后有5个中间文件。

12.mapred.child.java.opts
设置任务节点的内存大小

13.io.file.buffer.size
缓冲区,默认为4KB的缓冲区

14.mapred.map.tasks.speculative.execution mapred.reduce.tasks.speculative.execution
推测执行默认值为true,

15.mapred.job.reuse.jvm.num.tasks
默认值为1,指定作业的jvm执行任务的最大数,如果为-1,则同一作业中的任务可以共享一个JVM,数量不限

16.mapred.linerecordreader.maxlength
数据行长度的最大值,防止因为内存溢出导致的错误

17.SkipBadRecord开启跳跃模式,跳过失败的坏记录
mapred.map.max.attemps mapred.reduce.attemps 一次只能跳过一个错误记录

18.关闭安全模式
hadoop dfsadmin -safemode leave

hadoop 参数的更多相关文章

  1. hadoop参数配置

    Hadoop参数汇总 linux参数 JVM参数 Hadoop参数大全 core-default.xml hdfs-default.xml yarn-default.xml Hadoop参数汇总 @( ...

  2. hadoop记录-Hadoop参数汇总

    Hadoop参数汇总 linux参数 以下参数最好优化一下: 文件描述符ulimit -n 用户最大进程 nproc (hbase需要 hbse book) 关闭swap分区 设置合理的预读取缓冲区 ...

  3. [转]Hadoop参数汇总

    出自:https://segmentfault.com/a/1190000000709725 Hadoop参数大全 主要配置文件: core hdfs yarn mapred 重要性表示如下: 重要 ...

  4. Hadoop参数汇总

    linux参数 以下参数最好优化一下: 文件描述符ulimit -n 用户最大进程 nproc (hbase需要 hbse book) 关闭swap分区 设置合理的预读取缓冲区 Linux的内核的IO ...

  5. [bigdata] hadoop 参数配置解析

    ResourceManager相关配置参数 yarn-site.xml 中配置 yarn.resourcemanager.address ResourceManager 对客户端暴露的地址.客户端通过 ...

  6. Hadoop参数优化

    dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响内存的使用), mapred.map.tasks.spec ...

  7. CM记录-Hadoop参数调优

    1.HDFS调优 a.设置合理的块大小(dfs.block.size) b.将中间结果目录设置为分布在多个磁盘以提升写入速度(mapred.local.dir) c.设置DataNode处理RPC的线 ...

  8. Hadoop参数调优

    转自:http://blog.sina.com.cn/s/blog_6a67b5c50100vop9.html dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接 ...

  9. 七、Hadoop学习笔记————调优之Hadoop参数调优

    dfs.datanode.handler.count默认为3,大集群可以调整为10 传统MapReduce和yarn对比 如果服务器物理内存128G,则容器内存建议为100比较合理 配置总量时考虑系统 ...

随机推荐

  1. 【LeetCode】80. Remove Duplicates from Sorted Array II (2 solutions)

    Remove Duplicates from Sorted Array II Follow up for "Remove Duplicates":What if duplicate ...

  2. C# Timer使用方法示例

    实例化一个timer: // 每5分钟执行一次,每次执行的间隔毫秒时长 System.Timers.Timer timer = new System.Timers.Timer(5*60*1000); ...

  3. Linux GPIO子系统

    一 概述 Linux内核中gpio是最简单,最常用的资源(和 interrupt ,dma,timer一样)驱动程序,应用程序都能够通过相应的接口使用gpio,gpio使用0-MAX_INT之间的整数 ...

  4. vscode自定义背景颜色

    vscode自定义背景颜色   大概做前端的builder(只会打代码的才是coder,嘻嘻~)一半以上都会使用vscode编辑代码吧,vscode很轻量,支持的文件拖拽加入编辑区功能我个人认为很方便 ...

  5. C# partial 关键字详解

    我们新建一个Windows Form时,后台代码都会自动添加如下代码: public partial class Form1 : Form { public Form1() { InitializeC ...

  6. 转 ShowSlow+Yslow页面前端性能测试环境搭建

    ----//工具介绍 Yslow:YSlow是Yahoo发布的一款基于FireFox的插件. YSlow可以对网站的页面进行分析,并告诉你为了提高网站性能,如何基于某些规则而进行优化. ShowSlo ...

  7. WebBrowser无法显示招商银行password输入控件的问题

    本文由CharlesSimonyi发表于CSDN博客:http://blog.csdn.net/charlessimonyi/article/details/30479131转载请注明出处 之前就看到 ...

  8. Python floor() 函数

    描述 floor(x) 函数返回一个小于或等于 x 的的最大整数(向下取整) 语法 以下是 floor() 方法的语法: import math math.floor( x ) 注意:floor()是 ...

  9. [转]VTH changes in DC from Hspice

    Hello, everyone. I’d like to know the threshold of the MOS transistor. And I found the “.print vth() ...

  10. MySQL查看SQL语句执行效率(转)

    Explain命令在解决数据库性能上是第一推荐使用命令,大部分的性能问题可以通过此命令来简单的解决,Explain可以用来查看 SQL 语句的执行效 果,可以帮助选择更好的索引和优化查询语句,写出更好 ...