CDH集群中YARN的参数配置

前言:Hadoop 2.0之后,原先的MapReduce不在是简单的离线批处理MR任务的框架,升级为MapReduceV2(Yarn)版本,也就是把资源调度和任务分发两块分离开来。而在最新的CDH版本中,同时集成了MapReduceV1和MapReduceV2(Yarn)两个版本,如果集群中需要使用Yarn做统一的资源调度,建议使用Yarn。

CDH对Yarn的部分参数做了少了修改,并且添加了相关的中文说明,本文着重介绍了CDH中相比 MapReduceV1一些参数改动的配置。

一、CPU配置

ApplicationMaster 虚拟 CPU 内核

yarn.app.mapreduce.am.resource.cpu-vcores        // ApplicationMaster占用的cpu内核数(Gateway--资源管理 )

容器虚拟 CPU 内核

yarn.nodemanager.resource.cpu-vcores         //单 个NodeManager 最大能分配的cpu核数 (NodeManager --资源管理 )

结论:当前 nodemanager 申请的 ApplicationMaster数总 和小于 nodemanager最大cpu内核数

二、内存配置

容器内存

yarn.nodemanager.resource.memory-mb      //单个NodeManager能分配的最大内存(NodeManager --资源管理) //Memory Total = 单个NodeManager内存 * 节点数

结论:提交任务占用内存Memory Used 小于Memory Total

Map 任务内存

mapreduce.map.memory.mb                           //为作业的每个 Map 任务分配的物理内存量 (Gateway--资源管理 )

结论:map或reduce的内存需求不大于appmaster的内存需求

最大容器内存

yarn.scheduler.maximum-allocation-mb      //单个任务可申请最大内存 (ResourceManager--资源管理 )

三、同一个Map或者Reduce 并行执行

Map 任务推理执行

mapreduce.map.speculative                        //Gateway

Reduce 任务推理执行

mapreduce.reduce.speculative                    //Gateway

四、JVM重用

启用 Ubertask 优化 :

mapreduce.job.ubertask.enable | (默认false)     //true则表示启用jvm重用(Gateway--性能 )

jvm重用的决定参数如下:

Ubertask 最大 Map  

mapreduce.job.ubertask.maxmaps                    //超过多少个map启用jvm重用(Gateway--性能)

Ubertask 最大 Reduce  

mapreduce.job.ubertask.maxreduces                //超过多少  Reduce  启用jvm重用,目前支持1个 (Gateway--性能)

Ubertask 最大作业大小

mapreduce.job.ubertask.maxbytes                   //application的输入大小的阀值,默认为 block大小(Gateway--性能)

五、其他参数

给spark加日志编辑 spark-defaults.conf

spark.yarn.historyServer.address=http://cloud003:18080/

CDH集群中YARN的参数配置的更多相关文章

  1. 使用Cloudrea Manager在CDH集群中添加kafka服务节点,更改borker.id配置后无法启动

    需要保证meta.properties文件中的broker.id和cloudrea manager的web页面上kafka配置的broker.id一致,最好让server.properties中的br ...

  2. CentOS7安装CDH 第七章:CDH集群Hadoop的HA配置

    相关文章链接 CentOS7安装CDH 第一章:CentOS7系统安装 CentOS7安装CDH 第二章:CentOS7各个软件安装和启动 CentOS7安装CDH 第三章:CDH中的问题和解决方法 ...

  3. 集群中配置多台计算机之间ssh无密码登录的一种简便方法

    当我们在配置多台计算,使之可以相互使用无密码登录-ssh,之前都是一台一台的配置,现在一台A上添加B,然后在另一台B上再次添加A,这样使得 authorized_keys中的内容相同,但时并不是完全相 ...

  4. 在Kubernetes集群中使用calico做网络驱动的配置方法

    参考calico官网:http://docs.projectcalico.org/v2.0/getting-started/kubernetes/installation/hosted/kubeadm ...

  5. 一:MetaMq集群中单个节点的安装配置示意图

    MetaMQ集群一个节点的安装和配置示意图[1]:下载metaMQ的安装包

  6. 集群中配置多台机器之间 SSH 免密码登录

    集群中配置多台机器之间 SSH 免密码登录 问题描述 由于现在项目大多数由传统的单台机器部署,慢慢转变成多机器的集群化部署. 但是,这就涉及到机器间的 SSH 免密码互通问题. 当集群机器比较多的时候 ...

  7. MySql集群FAQ----mysql主从配置与集群区别、集群中需要多少台计算机呢?为什么? 等

    抽取一部分显示在这里,如下, What's the difference in using Clustervs using replication? 在复制系统中,一个MySQL主服务器会更新一个或多 ...

  8. 为什么zookeeper集群中节点配置个数是奇数个?

    Zookeeper的大部分操作都是通过选举产生的.比如,标记一个写是否成功是要在超过一半节点发送写请求成功时才认为有效.同样,Zookeeper选择领导者节点也是在超过一半节点同意时才有效.最后,Zo ...

  9. CDH集群安装&测试总结

    0.绪论 之前完全没有接触过大数据相关的东西,都是书上啊,媒体上各种吹嘘啊,我对大数据,集群啊,分布式计算等等概念真是高山仰止,充满了仰望之情,觉得这些东西是这样的: 当我搭建的过程中,发现这些东西是 ...

随机推荐

  1. 核化主成分分析(Kernel PCA)应用及调参

    核化这个概念在很多机器学习方法中都有应用,如SVM,PCA等.在此结合sklearn中的KPCA说说核函数具体怎么来用. KPCA和PCA都是用来做无监督数据处理的,但是有一点不一样.PCA是降维,把 ...

  2. SOC四大弱点分析

    导读 今年的年度安全运营中心(SOC)调查中,SANS研究所指出了4个最为常见的SOC弱点.这些弱点的根源可被追溯到我们非常熟悉的人.过程.适度规划和技术实现上.下面我们就来看看SOC的四大弱点究竟是 ...

  3. 【Gym - 101164I】Cubes(dfs,剪枝)

    BUPT2017 wintertraining(15) #4 A - I.Cubes Gym - 101164I 题意 将n拆成最少个立方数相加的形式. 题解 根据n的范围,立方数最大不超过400的立 ...

  4. 自学Aruba5.2-Aruba安全认证-有PEFNG 许可证环境的角色策略管理

    点击返回:自学Aruba之路 自学Aruba5.2-Aruba安全认证- 有PEFNG 许可证环境的角色策略管理 导入许可后,可以对Role进行配置: 1. 系统自带的Role的可以修改的属性: 2. ...

  5. 小trick总结

    一个圆上的整点数量不会很多.(Cf AIM TR 5 F) 二分图完美匹配求字典序最小的方案:先一遍匈牙利求出任意一组完美匹配.再跑一遍逐位确定,要求不能修改编号比它小的匹配.(LG 4100) 如果 ...

  6. 洛谷 P3965 [TJOI2013]循环格 解题报告

    P3965 [TJOI2013]循环格 题目背景 一个循环格就是一个矩阵,其中所有元素为箭头,指向相邻四个格子. 每个元素有一个坐标(行,列),其中左上角元素坐标为\((0,0)\).给定一个起始位\ ...

  7. bzoj1003/luogu1772 物流运输 (dijkstra+dp)

    先求出某一段时间[i,j]一直用同一个路径的最短路,乘上天数,记作cost[i,j] 那就可以设f[i]是前i天的最小代价,f[i]=f[j]+cost[j+1,i]+K #include<bi ...

  8. 用selenium获取cookies

    前言:由于登录反爬措施的越来越麻烦,甚至出现了12306这种看图识物的无敌验证码,我只能说,我选择死亡.这就衍生出了使用selenium来获取获取cookies. 实例:获取qq空间cookies,亲 ...

  9. JDK源码分析(1)ArrayList

    JDK版本 ArrayList简介 ArrayList 是一个数组队列,相当于 动态数组.与Java中的数组相比,它的容量能动态增长.它继承于AbstractList,实现了List, RandomA ...

  10. android 之 Hnadler 、Message 、Looper

    Handler定义: 主要接受子线程发送来的数据,并用此数据配合主线程更新UI. 为什么要用Handler? 我们手机当中的很多功能或操作是不能都放在Activity当中的,比如下载文件.处理大量数据 ...