hadoop配置机架感知

　　接着上一篇来说。上篇说了hadoop网络拓扑的构成及其相应的网络位置转换方式，本篇主要讲通过两种方式来配置机架感知。一种是通过配置一个脚本来进行映射；另一种是通过实现DNSToSwitchMapping接口的resolve()方法来完成网络位置的映射。

　　hadoop自身是没有机架感知能力的，必须通过人为的设定来达到这个目的。在FSNamesystem类中的resolveNetworkLocation()方法负载进行网络位置的转换。其中dnsToSwitchMapping变量代表了完成具体转换工作的类，其值如下：

 this.dnsToSwitchMapping = ReflectionUtils.newInstance(

         conf.getClass("topology.node.switch.mapping.impl", ScriptBasedMapping.class,

             DNSToSwitchMapping.class), conf);

　　也就是说dnsToSwitchMapping的值由“core-site.xml”配置文件中的"topology.node.switch.mapping.impl"参数指定。默认值为ScriptBasedMapping，也就是通过读提前写好的脚本文件来进行网络位置映射的。但如果这个脚本没有配置的话，那就使用默认值“default-rack”作为所有结点的网络位置。

　　下面就先说说第一种配置机架感知的方法，使用脚本来完成网络位置的映射。这需要在“core-site.xml”配置文件中的“topology.script.file.name”参数中指定脚本文件的位置。在wiki上找到一个官方的配置脚本，可以参考一下。首先是shell脚本：

 HADOOP_CONF=/etc/hadoop/conf 

 while [ $# -gt  ] ; do  //$#代表执行命令时输入的参数个数

   nodeArg=$

   exec< ${HADOOP_CONF}/topology.data   //读入文件

   result=""

   while read line ; do        //循环遍历文件内容

     ar=( $line )

     if [ "${ar[0]}" = "$nodeArg" ] ; then

       result="${ar[1]}"

     fi

   done

   shift

   if [ -z "$result" ] ; then

     echo -n "/default/rack "

   else

     echo -n "$result "

   fi

 done

　　topology.data文件格式如下：

tt156   /dc1/rack1

tt163   /dc1/rack1

tt164   /dc1/rack2

tt165   /dc1/rack2

10.32.11.156   /dc1/rack1

10.32.11.163   /dc1/rack1

10.32.11.164   /dc1/rack2

10.32.11.165   /dc1/rack2

　　我是把原来topology.data文件内容改了下，把hostname也添加进去了，这样保证正确性。因为JobTracker是通过hostname进行映射的。

　　网上也有用Python脚本和C语言写的，但我对Python不是很熟，所以在这里就不说了。总结上边的内容，可以知道，不管用什么脚本来写，最重要的就是接收参数，完成网络位置映射并将结果输出。这样系统就能够接收到合适结果。

　　第二种配置机架感知的方法是通过实现DNSToSwitchMapping接口，重写resolve()方法完成的。这就需要自己写个java类来完成映射了。然后在“core-site.xml”配置文件中的“topology.node.switch.mapping.impl”指定自己的实现类。这样的话，在进行网络位置解析的时候，就会调用自己类中的resolve()方法来完成转换了。我写的比较简单，能完成功能就好，代码如下(大神飞过)：

 public class MyResolveNetworkTopology implements DNSToSwitchMapping {

     private String[] hostnameLists = {"tt156", "tt163", "tt164", "tt165"};

     private String[] ipLists = {"10.32.11.156", "10.32.11.163", "10.32.11.164", "10.32.11.165"};

     private String[] resolvedLists = {"/dc1/rack1", "/dc1/rack1", "/dc1/rack2", "/dc1/rack2"};

     @Override

     public List<String> resolve(List<String> names) {

         names = NetUtils.normalizeHostNames(names);

         List <String> result = new ArrayList<String>(names.size());

         if (names.isEmpty()) {

           return result;

         }

         for (int i = 0; i < names.size(); i++) {

             String name = names.get(i);

             for(int j = 0; j < hostnameLists.length; j++){

                 if(name.equals(hostnameLists[j])) {

                     result.add(resolvedLists[j]);

                 } else if(name.equals(ipLists[j])) {

                     result.add(resolvedLists[j]);

                 }

             }

         }

         return result;

     }

 }

　　我把这个自定义的MyResolveNetworkTopology类放在了core包的org.apache.hadoop.net目录下。所以在“core-site.xml”文件中的配置如下：　　

<property>

  <name>topology.node.switch.mapping.impl</name>

  <value>org.apache.hadoop.net.MyResolveNetworkTopology</value>

  <description> The default implementation of the DNSToSwitchMapping. It

    invokes a script specified in topology.script.file.name to resolve

    node names. If the value for topology.script.file.name is not set, the

    default value of DEFAULT_RACK is returned for all node names.

  </description>

</property>

　　以上两种方法在配置完成后，会在NameNode和JobTracker的log中打印出如下信息：

2015-05-26 20:47:20,665 INFO org.apache.hadoop.net.NetworkTopology: Adding a new node: /dc1/rack1/tt163
2015-05-26 20:47:20,689 INFO org.apache.hadoop.net.NetworkTopology: Adding a new node: /dc1/rack1/tt156
.......

　　这就说明机架感知配置成功了。

　　总结一下以上两种方式。通过脚本配置的方式，灵活性很高，但是执行效率较低。因为系统要从jvm转到shell去执行；java类的方式性能较高，但是编译之后就无法改变了，所以灵活程度较低。所以要根据具体情况来选择策略.

　　本文基于hadoop1.2.1。如有错误，还请指正

　　参考文章：http://wiki.apache.org/hadoop/topology_rack_awareness_scripts

　　转载请注明出处：http://www.cnblogs.com/gwgyk/p/4531947.html

hadoop配置机架感知的更多相关文章

深入理解hadoop之机架感知
深入理解hadoop之机架感知机架感知 hadoop的replication为3,机架感知的策略为: 第一个block副本放在和client所在的datanode里(如果client不在集群范围内, ...
【Hadoop】Hadoop 机架感知配置、原理
Hadoop机架感知 1.背景 Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为本地一份, 同机架内其它某一节点上一份,不同机架的某一节点上一份. 这样如果本地 ...
【转载】Hadoop机架感知
转载自http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2843015.html 背景分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机 ...
hadoop机架感知
背景分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群.机架内的机器之间的网络速度通常都会高于跨机架 ...
【原创】Hadoop机架感知对性能调优的理解
Hadoop作为大数据处理的典型平台,在海量数据处理过程中,其主要限制因素是节点之间的数据传输速率.因为集群的带宽有限,而有限的带宽资源却承担着大量的刚性带宽需求,例如Shuffle阶段的数据传输不可 ...
ZooKeeper学习之路（十）Hadoop的HA集群的机架感知
一.背景 Hadoop 的设计目的:解决海量大文件的处理问题,主要指大数据的存储和计算问题,其中, HDFS 解决数据的存储问题:MapReduce 解决数据的计算问题 Hadoop 的设计考虑:设计 ...
hadoop之 hadoop 机架感知
1.背景 Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为本地一份,同机架内其它某一节点上一份,不同机架的某一节点上一份.这样如果本地数据损坏,节点可以从同一机 ...
第十三章 hadoop机架感知
背景分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群.机架内的机器之间的网络速度通常都会高于跨机架 ...
Apache Hadoop集群安装（NameNode HA + SPARK + 机架感知）
1.主机规划序号主机名 IP地址角色 1 nn-1 192.168.9.21 NameNode.mr-jobhistory.zookeeper.JournalNode 2 nn-2 ).HA的集 ...

随机推荐

GOLANG 注释
注释可提高代码可读性编译器编译时自动忽略注释段内容单行注释 //单行注释块注释 /* 块注释 */
ElasticSearch5中文分词(IK)
ElasticSearch安装官网:https://www.elastic.co 1.ElasticSearch安装 1.1.下载安装公共密钥 rpm --import https://artifa ...
crontab Job权限重要
在撰写JOb时,需要将SH目录及文件设为777,方可正常执行~
React 高级指南小记
接上篇,还是笔记,还是干货. 深入 JSX 如果使用 JSX 表达式 <Foo />,Foo 必须在范围内,因为这些标签被编译为对指定变量的直接引用. 由于 JSX 编译为对 React. ...
Redis教程(二)：String数据类型
一.概述: 字符串类型是Redis中最为基础的数据存储类型,它在Redis中是二进制安全的,这便意味着该类型可以接受任何格式的数据,如JPEG图像数据或Json对象描述信息等.在Redis中字符串类型 ...
Python_Day6_Pyhotn常用模块学习
本节大纲: 模块介绍 time &datetime模块 random os sys shutil json & picle shelve xml处理 yaml处理 configpars ...
mysql复制一列到另一列
mysql复制一列到另一列 UPDATE 表名 SET B列名=A列名需求:把一个表某个字段内容复制到另一张表的某个字段. 实现sql语句1: 复制代码代码如下: UPDATE file_man ...
webpack ,gulp/grunt的介绍
http://www.jianshu.com/p/42e11515c10f# bfc的概念block formatting context http://www.cnblogs.com/dojo-lz ...
phpstorm使用手册
参考:http://www.cnblogs.com/luojianqun/p/4596052.html 罗总说这是php最好的IDE,phpstorm9.02,没有之一.各种功能各种好,罗总此等大神说 ...
unity调用摄像头的方法
http://blog.csdn.net/cocoa_china/article/details/10527995 using UnityEngine; using System.Collection ...

hadoop配置机架感知

hadoop配置机架感知的更多相关文章

随机推荐

热门专题