本文通过MetaWeblog自动发布，原文及更新链接：https://extendswind.top/posts/technical/hadoop_rack_awareness

Hadoop会通过集群的拓扑（节点在交换机的连接形式）优化文件的存储，降低跨交换机的数据通信，使副本跨交换机以保证数据安全。

但Hadoop没有默认的集群拓扑识别机制，需要使用额外的java类或脚本两种形式设置。

官网上给了集群拓扑的基本说明（!(Rack Awareness)[https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/RackAwareness.html]），给出来的那两段脚本看得有点懵，就自己试了一下，写了个更简单的。

其实只是Hadoop会调用脚本，将多个Datanode的ip作为输入，每次最多输入的ip数设置在net.topology.script.number.args，将输入的ip转换成/rack-num的形式(以/开头的字符串)，用标准输出流（如Python的print）输出结果。

具体操作

编写脚本

下面的脚本在输入

192.168.3.1

192.168.3.4

时，会输出

/rack1

/rack4

#!/bin/python3

import sys

# 第一个参数是脚本路径，直接pop掉

sys.argv.pop(0)

# 0-3  rack0

# 4-7  rack1

# 8-11  rack2

# ...

# 其它的参数里每个参数都是一个ip，此处直接取ip的最后一位除以4作为Racknum

# 实践上可以读文件确定ip的对应关系

for ip in sys.argv:

    hostNum = int(ip.split(".")[3])

    print("/rack" + str(int(hostNum/4)))

设置配置参数

<property>

  <name>net.topology.script.file.name</name>

  <value>/home/sparkl/hadoop/etc/hadoop/topology.py</value>

</property>

重启集群即可

验证结果

以下命令能够直接获取某一个文件的分布状态，以及总的rack数量：

hdfs fsck /readme.md -files -blocks -racks

貌似没有直接以树状的形式输出集群拓扑的命令，namenode的日志中能看到datanode在连接时的拓扑位置。

Hadoop 机架（集群拓扑）设置的更多相关文章

Hadoop - Ambari集群管理剖析
1.Overview Ambari是Apache推出的一个集中管理Hadoop的集群的一个平台,可以快速帮助搭建Hadoop及相关以来组件的平台,管理集群方便.这篇博客记录Ambari的相关问题和注意 ...
hadoop的集群安装
hadoop的集群安装 1.安装JDK,解压jar,配置环境变量 1.1.解压jar tar -zxvf jdk-7u79-linux-x64.tar.gz -C /opt/install //将jd ...
基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建
1. 介绍在过去几年中,神经网络已经有了很壮观的进展,现在他们几乎已经是图像识别和自动翻译领域中最强者[1].为了从海量数据中获得洞察力,需要部署分布式深度学习.现有的DL框架通常需要为深度学习设置 ...
Hadoop分布式集群搭建hadoop2.6+Ubuntu16.04
前段时间搭建Hadoop分布式集群,踩了不少坑,网上很多资料都写得不够详细,对于新手来说搭建起来会遇到很多问题.以下是自己根据搭建Hadoop分布式集群的经验希望给新手一些帮助.当然,建议先把HDFS ...
Hadoop分布式集群搭建
layout: "post" title: "Hadoop分布式集群搭建" date: "2017-08-17 10:23" catalog ...
Hadoop基础-Hadoop的集群管理之服役和退役
Hadoop基础-Hadoop的集群管理之服役和退役作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 在实际生产环境中,如果是上千万规模的集群,难免一个一个月会有那么几台服务器出点故 ...
一脸懵逼学习Hadoop分布式集群HA模式部署（七台机器跑集群）
1)集群规划:主机名 IP 安装的软件运行的进程master 192.168.199.130 jdk.hadoop ...
基于zookeeper的高可用Hadoop HA集群安装
(1)hadoop2.7.1源码编译 http://aperise.iteye.com/blog/2246856 (2)hadoop2.7.1安装准备 http://aperise.iteye.com ...
Hadoop+HBase 集群搭建
Hadoop+HBase 集群搭建 1. 环境准备说明:本次集群搭建使用系统版本Centos 7.5 ,软件版本 V3.1.1. 1.1 配置说明本次集群搭建共三台机器,具体说明下: 主机名 IP ...

随机推荐

CCF 2016-12-1 中间数
CCF 2016-12-1 中间数题目问题描述在一个整数序列a1, a2, -, an中,如果存在某个数,大于它的整数数量等于小于它的整数数量,则称其为中间数.在一个序列中,可能存在多个下标不相 ...
异常【kubelet cgroup driver：cgroupfs跟docker cgroup driver：systemd不一致】
修改docker.service vi /lib/systemd/system/docker.service 找到 --exec-opt native.cgroupdriver=systemd \ 修 ...
Flutter裁剪图片
最近在学习中需要用到裁剪图片,记录一下解决方法思路: 使用canvas的drawImageRect()方法,对Image进行裁剪,这里的Image需要 'dart:ui' 库中的Image. 1. ...
轻量ORM-SqlRepoEx介绍
轻量级 ORM-SqlRepoEx 介绍 SqlRepoEx是 .Net平台下兼容.NET Standard 2.0人一个轻型的ORM.解决了Lambda转Sql语句这一难题,SqlRepoEx使用的 ...
C语言的三套标准 C89(C90)、C99、C11
C语言最初由 Dennis Ritchie 于 1969 年到 1973 年在 AT&T 贝尔实验室里开发出来,主要用于重新实现 Unix 操作系统.此时,C语言又被称为 K&R C. ...
HashMap的put()与扩容
1. put() final V putVal(int hash, K key, V value, boolean onlyIfAbsent, boolean evict) { HashMap.Nod ...
Springboot中自已测试
签到的测试,需要传入日期,签到7天可获得更多的积分, 构造7天前的签到记录,重写签到方法,进行构造数据 import cn.com.acxiom.coty.api.ws.bean.dto.PointD ...
jmeter + ant + jenkins 自动化集成环境搭建
所需工具一.jmeter 工具下载 https://jmeter.apache.org/ 配置环境JDK等及各种插件二.Ant安装(http://ant.apache.org/) 安装Ant是为 ...
.net框架-链表（LinkedList<T>)
链表LinkedList 优点:插入元素快缺点:查找元素慢 .net framework只提供了泛型版本继承接口:ICollection<T>, IEnumerable<T> ...
nginx配置白名单
配置如下: http模块: http { include mime.types; default_type application/octet-stream; #log_format main '$r ...