Hadoop Intro - Configure
Hadoop运行模式分为安全模式和非安全模式,在这里,我将讲述非安全模式下,主要配置文件的重要参数功能及作用,本文所使用的Hadoop版本为2.6.4。
etc/hadoop/core-site.xml
参数 | 属性值 | 解释 |
fs.defaultFS | NameNode URI | hdfs://host:port/ |
io.file.buffer.size | 131072 | SequenceFiles文件中.读写缓存size设定 |
1 <configuration>
2 <property>
3 <name>fs.defaultFS</name>
4 <value>hdfs://192.168.1.100:900</value>
5 <description>192.168.1.100为服务器IP地址,其实也可以使用主机名</description>
6 </property>
7 <property>
8 <name>io.file.buffer.size</name>
9 <value>131072</value>
10 <description>该属性值单位为KB,131072KB即为默认的64M</description>
11 </property>
12 </configuration>
etc/hadoop/hdfs-site.xml
- 配置NameNode
参数 | 属性值 | 解释 |
dfs.namenode.name.dir | 在本地文件系统所在的NameNode的存储空间和持续化处理日志 | 如果这是一个以逗号分隔的目录列表,然 后将名称表被复制的所有目录,以备不时 需。 |
dfs.namenode.hosts/ dfs.namenode.hosts.exclude |
Datanodes permitted/excluded列表 | 如有必要,可以使用这些文件来控制允许 数据节点的列表 |
dfs.blocksize | 268435456 | 大型的文件系统HDFS块大小为256MB |
dfs.namenode.handler.count | 100 | 设置更多的namenode线程,处理从 datanode发出的大量RPC请求 |
范例:
1 <configuration>
2 <property>
3 <name>dfs.replication</name>
4 <value>1</value>
5 <description>分片数量,伪分布式将其配置成1即可</description>
6 </property>
7 <property>
8 <name>dfs.namenode.name.dir</name>
9 <value>file:/usr/local/hadoop/tmp/namenode</value>
10 <description>命名空间和事务在本地文件系统永久存储的路径</description>
11 </property>
12 <property>
13 <name>dfs.namenode.hosts</name>
14 <value>datanode1, datanode2</value>
15 <description>datanode1, datanode2分别对应DataNode所在服务器主机名</description>
16 </property>
17 <property>
18 <name>dfs.blocksize</name>
19 <value>268435456</value>
20 <description>大文件系统HDFS块大小为256M,默认值为64M</description>
21 </property>
22 <property>
23 <name>dfs.namenode.handler.count</name>
24 <value>100</value>
25 <description>更多的NameNode服务器线程处理来自DataNodes的RPCS</description>
26 </property>
27 </configuration>
- 配置DataNode
参数 | 属性值 | 解释 |
dfs.datanode.data.dir | 逗号分隔的一个DataNode上,它应该保存它的块的本地文件系统的路径列表 | 如果这是一个以逗号分隔的目录列表,那么数据将被存储在所有命名的目录,通常在不同的设备。 |
1 <configuration>
2 <property>
3 <name>dfs.datanode.data.dir</name>
4 <value>file:/usr/local/hadoop/tmp/datanode</value>
5 <description>DataNode在本地文件系统中存放块的路径</description>
6 </property>
7 </configuration>
etc/hadoop/yarn-site.xml
- 配置ResourceManager 和 NodeManager:
参数 | 属性值 | 解释 |
yarn.resourcemanager.address | 客户端对ResourceManager主机通过 host:port 提交作业 | host:port |
yarn.resourcemanager.scheduler.address | ApplicationMasters 通过ResourceManager主机访问host:port跟踪调度程序获资源 | host:port |
yarn.resourcemanager.resource-tracker.address | NodeManagers通过ResourceManager主机访问host:port | host:port |
yarn.resourcemanager.admin.address | 管理命令通过ResourceManager主机访问host:port | host:port |
yarn.resourcemanager.webapp.address | ResourceManager web页面host:port. | host:port |
yarn.resourcemanager.scheduler.class | ResourceManager 调度类(Scheduler class) | CapacityScheduler(推荐),FairScheduler(也推荐),orFifoScheduler |
yarn.scheduler.minimum-allocation-mb | 每个容器内存最低限额分配到的资源管理器要求 | 以MB为单位 |
yarn.scheduler.maximum-allocation-mb | 资源管理器分配给每个容器的内存最大限制 | 以MB为单位 |
yarn.resourcemanager.nodes.include-path/ yarn.resourcemanager.nodes.exclude-path |
NodeManagers的permitted/excluded列表 | 如有必要,可使用这些文件来控制允许NodeManagers列表 |
范例:
1 <configuration>
2 <property>
3 <name>yarn.resourcemanager.address</name>
4 <value>192.168.1.100:8081</value>
5 <description>IP地址192.168.1.100也可替换为主机名</description>
6 </property>
7 <property>
8 <name>yarn.resourcemanager.scheduler.address</name>
9 <value>192.168.1.100:8082</value>
10 <description>IP地址192.168.1.100也可替换为主机名</description>
11 </property>
12 <property>
13 <name>yarn.resourcemanager.resource-tracker.address</name>
14 <value>192.168.1.100:8083</value>
15 <description>IP地址192.168.1.100也可替换为主机名</description>
16 </property>
17 <property>
18 <name>yarn.resourcemanager.admin.address</name>
19 <value>192.168.1.100:8084</value>
20 <description>IP地址192.168.1.100也可替换为主机名</description>
21 </property>
22 <property>
23 <name>yarn.resourcemanager.webapp.address</name>
24 <value>192.168.1.100:8085</value>
25 <description>IP地址192.168.1.100也可替换为主机名</description>
26 </property>
27 <property>
28 <name>yarn.resourcemanager.scheduler.class</name>
29 <value>FairScheduler</value>
30 <description>常用类:CapacityScheduler、FairScheduler、orFifoScheduler</description>
31 </property>
32 <property>
33 <name>yarn.scheduler.minimum</name>
34 <value>100</value>
35 <description>单位:MB</description>
36 </property>
37 <property>
38 <name>yarn.scheduler.maximum</name>
39 <value>256</value>
40 <description>单位:MB</description>
41 </property>
42 <property>
43 <name>yarn.resourcemanager.nodes.include-path</name>
44 <value>nodeManager1, nodeManager2</value>
45 <description>nodeManager1, nodeManager2分别对应服务器主机名</description>
46 </property>
47 </configuration>
- 配置NodeManager
参数 | 属性值 | 解释 |
yarn.nodemanager.resource.memory-mb | givenNodeManager即资源的可用物理内存,以MB为单位 | 定义在节点管理器总的可用资源,以提供给运行容器 |
yarn.nodemanager.vmem-pmem-ratio | 最大比率为一些任务的虚拟内存使用量可能会超过物理内存率 | 每个任务的虚拟内存的使用可以通过这个比例超过了物理内存的限制。虚拟内存的使用上的节点管理器任务的总量可以通过这个比率超过其物理内存的使用 |
yarn.nodemanager.local-dirs | 数据写入本地文件系统路径的列表用逗号分隔 | 多条存储路径可以提高磁盘的读写速度 |
yarn.nodemanager.log-dirs | 本地文件系统日志路径的列表逗号分隔 | 多条存储路径可以提高磁盘的读写速度 |
yarn.nodemanager.log.retain-seconds | 10800 | 如果日志聚合被禁用。默认的时间(以秒为单位)保留在节点管理器只适用日志文件 |
yarn.nodemanager.remote-app-log-dir | logs | HDFS目录下的应用程序日志移动应用上完成。需要设置相应的权限。仅适用日志聚合功能 |
yarn.nodemanager.remote-app-log-dir-suffix | logs | 后缀追加到远程日志目录。日志将被汇总到yarn.nodemanager.remoteapplogdir/yarn.nodemanager.remoteapplogdir/ {user}/${thisParam} 仅适用日志聚合功能。 |
yarn.nodemanager.aux-services | mapreduce-shuffle | Shuffle service 需要加以设置的Map Reduce的应用程序服务 |
范例:
1 <configuration>
2 <property>
3 <name>yarn.nodemanager.resource.memory-mb</name>
4 <value>256</value>
5 <description>单位为MB</description>
6 </property>
7 <property>
8 <name>yarn.nodemanager.vmem-pmem-ratio</name>
9 <value>90</value>
10 <description>百分比</description>
11 </property>
12 <property>
13 <name>yarn.nodemanager.local-dirs</name>
14 <value>/usr/local/hadoop/tmp/nodemanager</value>
15 <description>列表用逗号分隔</description>
16 </property>
17 <property>
18 <name>yarn.nodemanager.log-dirs</name>
19 <value>/usr/local/hadoop/tmp/nodemanager/logs</value>
20 <description>列表用逗号分隔</description>
21 </property>
22 <property>
23 <name>yarn.nodemanager.log.retain-seconds</name>
24 <value>10800</value>
25 <description>单位为S</description>
26 </property>
27 <property>
28 <name>yarn.nodemanager.aux-services</name>
29 <value>mapreduce-shuffle</value>
30 <description>Shuffle service 需要加以设置的MapReduce的应用程序服务</description>
31 </property>
32 </configuration>
etc/hadoop/mapred-site.xml
- 配置mapreduce
参数 | 属性值 | 解释 |
mapreduce.framework.name | yarn | 执行框架设置为 Hadoop YARN. |
mapreduce.map.memory.mb | 1536 | 对maps更大的资源限制的. |
mapreduce.map.java.opts | -Xmx2014M | maps中对jvm child设置更大的堆大小 |
mapreduce.reduce.memory.mb | 3072 | 设置 reduces对于较大的资源限制 |
mapreduce.reduce.java.opts | -Xmx2560M | reduces对 jvm child设置更大的堆大小 |
mapreduce.task.io.sort.mb | 512 | 更高的内存限制,而对数据进行排序的效率 |
mapreduce.task.io.sort.factor | 100 | 在文件排序中更多的流合并为一次 |
mapreduce.reduce.shuffle.parallelcopies | 50 | 通过reduces从很多的map中读取较多的平行 副本 |
范例:
1 <configuration>
2 <property>
3 <name> mapreduce.framework.name</name>
4 <value>yarn</value>
5 <description>执行框架设置为Hadoop YARN</description>
6 </property>
7 <property>
8 <name>mapreduce.map.memory.mb</name>
9 <value>1536</value>
10 <description>对maps更大的资源限制的</description>
11 </property>
12 <property>
13 <name>mapreduce.map.java.opts</name>
14 <value>-Xmx2014M</value>
15 <description>maps中对jvm child设置更大的堆大小</description>
16 </property>
17 <property>
18 <name>mapreduce.reduce.memory.mb</name>
19 <value>3072</value>
20 <description>设置 reduces对于较大的资源限制</description>
21 </property>
22 <property>
23 <name>mapreduce.reduce.java.opts</name>
24 <value>-Xmx2560M</value>
25 <description>reduces对 jvm child设置更大的堆大小</description>
26 </property>
27 <property>
28 <name>mapreduce.task.io.sort</name>
29 <value>512</value>
30 <description>更高的内存限制,而对数据进行排序的效率</description>
31 </property>
32 <property>
33 <name>mapreduce.task.io.sort.factor</name>
34 <value>100</value>
35 <description>在文件排序中更多的流合并为一次</description>
36 </property>
37 <property>
38 <name>mapreduce.reduce.shuffle.parallelcopies</name>
39 <value>50</value>
40 <description>通过reduces从很多的map中读取较多的平行副本</description>
41 </property>
42 </configuration>
- 配置mapreduce的JobHistory服务器
参数 | 属性值 | 解释 |
maprecude.jobhistory.address | MapReduce JobHistory Server host:port | 默认端口号 10020 |
mapreduce.jobhistory.webapp.address | MapReduce JobHistory Server Web UIhost:port | 默认端口号 19888 |
mapreduce.jobhistory.intermediate-done-dir | /mrhistory/tmp | 在历史文件被写入由MapReduce作业 |
mapreduce.jobhistory.done-dir | /mrhistory/done | 目录中的历史文件是由MR JobHistory Server管理 |
范例:
1 <configuration>
2 <property>
3 <name> mapreduce.jobhistory.address</name>
4 <value>192.168.1.100:10200</value>
5 <description>IP地址192.168.1.100可替换为主机名</description>
6 </property>
7 <property>
8 <name>mapreduce.jobhistory.webapp.address</name>
9 <value>192.168.1.100:19888</value>
10 <description>IP地址192.168.1.100可替换为主机名</description>
11 </property>
12 <property>
13 <name>mapreduce.jobhistory.intermediate-done-dir</name>
14 <value>/usr/local/hadoop/mrhistory/tmp</value>
15 <description>在历史文件被写入由MapReduce作业</description>
16 </property>
17 <property>
18 <name>mapreduce.jobhistory.done-dir</name>
19 <value>/usr/local/hadoop/mrhistory/done</value>
20 <description>目录中的历史文件是由MR JobHistoryServer管理</description>
21 </property>
22 </configuration>
Web Interface
Daemon | Web Interface | Notes |
NameNode | http://nn_host:port/ | 默认端口号50070 |
ResourceManager | http://rm_host:port/ | 默认端口号8088 |
MapReduce JobHistory Server | http://jhs_host:port/ | 默认端口号19888 |
Hadoop Intro - Configure的更多相关文章
- Hadoop Intro - Configure 01
hadoop配置文件详解.安装及相关操作 一. Hadoop伪分布配置 1. 在conf/hadoop-env.sh文件中增加:export JAVA_HOME=/home/Java/j ...
- hadoop yarn configure
<property> <description>The minimum allocation for every container request at the RM, ...
- Hadoop&Hbase 双机热备--Pacemaker&DRBD部署
相关文章 DRBD的介绍请参考http://blog.csdn.net/rzhzhz/article/details/7103772 DRBD的部署请参考http://blog.csdn.ne ...
- Golang、Php、Python、Java基于Thrift0.9.1实现跨语言调用
目录: 一.什么是Thrift? 1) Thrift内部框架一瞥 2) 支持的数据传输格式.数据传输方式和服务模型 3) Thrift IDL 二.Thrift的官方网站在哪里? 三.在哪里下载?需要 ...
- Python3学习之路~9.1 paramiko模块:实现ssh执行命令以及传输文件
我们一般使用linux的时候,都是在Windows上安装一个ssh客户端连接上去.那么从一台linux如何连接到另一条linux呢?使用ssh命令即可,因为每台linux机器自己都有一个ssh客户端. ...
- 国产深度学习框架mindspore-1.3.0 gpu版本无法进行源码编译
官网地址: https://www.mindspore.cn/install 所有依赖环境 进行sudo make install 安装,最终报错: 错误记录信息: cat /tmp/mind ...
- Hadoop源码学习笔记(1) ——第二季开始——找到Main函数及读一读Configure类
Hadoop源码学习笔记(1) ——找到Main函数及读一读Configure类 前面在第一季中,我们简单地研究了下Hadoop是什么,怎么用.在这开源的大牛作品的诱惑下,接下来我们要研究一下它是如何 ...
- configure HDFS(hadoop 分布式文件系统) high available
注:来自尚学堂小陈老师上课笔记 1.安装启动zookeeper a)上传解压zookeeper包 b)cp zoo_sample.cfg zoo.cfg修改zoo.cfg文件 c)dataDir=/o ...
- [Hadoop in Action] 第7章 细则手册
向任务传递定制参数 获取任务待定的信息 生成多个输出 与关系数据库交互 让输出做全局排序 1.向任务传递作业定制的参数 在编写Mapper和Reducer时,通常会想让一些地方可以配 ...
随机推荐
- spring第三篇
在昨天下午更新sprin第二篇中,叙述了将对象交给spring创建和管理,今天在spring第三篇中,主要写两个点一是spring的思想 二是spring中bean元素的属性配置. 1 spring思 ...
- UVa 1204 Fun Game (状压DP)
题意:有一些小孩(至少两个)围成一圈,有 n 轮游戏,每一轮从某个小孩开始往左或者往右伟手帕,拿到手帕写上自己的性别(B,G),然后以后相同方向给下一个. 然后在某个小孩结束,给出 n 轮手帕上的序列 ...
- 《Effective Java》第4章 类和接口
第13条:使类和成员的可访问性最小化 第一规则很简单:尽可能地使每个类或者成员不被外界访问.换句话说.应该使用与你正在编写的软件的对应功能相一致的.尽可能最小的访问级别. 对于顶层的(非嵌套的)类和接 ...
- Android应用启动优化:一种DelayLoad的实现和原理
http://www.androidperformance.com/2015/11/18/Android-app-lunch-optimize-delay-load.html
- 关于UI Automation框架
微软提供的UI Automation框架给开发windows平台的自动化测试带来了很大的便利,这里就总结一下相关的代码. 首先,直接使用UI Automation框架,完成一个NotePad的abou ...
- SQL Server中获取指定时间段内的所有日期
DECLARE @days INT, @date_start DATETIME = '2016-11-01', @date_end DATETIME = '2016-11-10' SET @days ...
- SQL:bat批处理多个.sql文件
一.批处理文件 update.bat 设置sqlserver的实例 记得一定要配置logfile文件 @echo off :: #### B. #### set LOGFILE=& ...
- ubuntu - mongoDB
安装 - 官网 命令行安装后使用1 服务端 mongod -version @ 查看mongoDB sudo service mongod start 启动mongo服务 sudo service m ...
- jquery - min.js /jquery-1.8.3.min.js引入后报错
解决方法:在“jquery-1.8.3.min.js”文件上,点击鼠标右键,在弹出菜单中选择“myeclipse”->"exclude From Validation",错误 ...
- vue框架搭建的详细步骤之项目结构(二)
上一篇中简单的创建了一个脚手架,这篇简单的讲一下脚手架的项目结构: (1).build/ 此目录包含开发服务器和生产webpack构建的实际配置.通常,您不需要触摸这些文件,除非您要自定义We ...