Hadoop federation配置

1、介绍

hadoop federation也称为联邦,主要是对namenode进行扩容。HA模式下只是实现了hadoop namenode的高可用,但是随着文件数据的不断增家,导致对namenode的压力越来越大,因此就需要对namenode的负载进行均衡处理。联邦的本质是配置多个namenode集群,将不同的路径映射到不同的集群上即可。但是需要注意所有namenode的集群有着一致的clusterid。结构图如下:

2、集群规划

本例中引入四台namenode,分别是s101、s102、s103和s104。其中s101和s102组成集群ns1,s103和s104组成集群ns2。

3、集群准备

以上四台节点都需要配置ssh,能够登录到所有的集群节点。

4、停止原来的集群

$>stop-dfs.sh

5、配置文件

5.1hdfs-site.xml

  • s101和s102配置相同

    <?xml version="1.0" encoding="UTF-8"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    <configuration>
    <property>
    <name>dfs.nameservices</name>
    <value>ns1,ns2</value>
    </property>
    <!-- **************ns1********************* -->
    <property>
    <name>dfs.ha.namenodes.ns1</name>
    <value>nn1,nn2</value>
    </property>
    <property>
    <name>dfs.namenode.rpc-address.ns1.nn1</name>
    <value>s101:8020</value>
    </property>
    <property>
    <name>dfs.namenode.rpc-address.ns1.nn2</name>
    <value>s102:8020</value>
    </property>
    <property>
    <name>dfs.namenode.http-address.ns1.nn1</name>
    <value>s101:50070</value>
    </property>
    <property>
    <name>dfs.namenode.http-address.ns1.nn2</name>
    <value>s102:50070</value>
    </property>
    <property>
    <name>dfs.client.failover.proxy.provider.ns1</name>
    <value>org.apache.hadoop.hdfs.server.namenode
    .ha.ConfiguredFailoverProxyProvider</value>
    </property>
    <!-- **************ns2********************* -->
    <property>
    <name>dfs.ha.namenodes.ns2</name>
    <value>nn3,nn4</value>
    </property>
    <property>
    <name>dfs.namenode.rpc-address.ns2.nn3</name>
    <value>s103:8020</value>
    </property>
    <property>
    <name>dfs.namenode.rpc-address.ns2.nn4</name>
    <value>s104:8020</value>
    </property>
    <property>
    <name>dfs.namenode.http-address.ns2.nn3</name>
    <value>s103:50070</value>
    </property>
    <property>
    <name>dfs.namenode.http-address.ns2.nn4</name>
    <value>s104:50070</value>
    </property>
    <property>
    <name>dfs.client.failover.proxy.provider.ns2</name>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
    </property>
    <!--***********************************************-->
    <property>
    <name>dfs.namenode.shared.edits.dir</name>
    <value>qjournal://s102:8485;s103:8485;s104:8485/ns1</value>
    </property> <property>
    <name>dfs.ha.fencing.methods</name>
    <value>
    sshfence
    shell(/bin/true)
    </value>
    </property>
    <property>
    <name>dfs.ha.fencing.ssh.private-key-files</name>
    <value>/home/centos/.ssh/id_rsa</value>
    </property> <property>
    <name>dfs.ha.automatic-failover.enabled</name>
    <value>true</value>
    </property>
    <property>
    <name>dfs.replication</name>
    <value>3</value>
    </property>
    </configuration>

  • s103和s104配置相同

    <?xml version="1.0" encoding="UTF-8"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    <configuration>
    <property>
    <name>dfs.nameservices</name>
    <value>ns1,ns2</value>
    </property>
    <!-- **************ns1********************* -->
    <property>
    <name>dfs.ha.namenodes.ns1</name>
    <value>nn1,nn2</value>
    </property>
    <property>
    <name>dfs.namenode.rpc-address.ns1.nn1</name>
    <value>s101:8020</value>
    </property>
    <property>
    <name>dfs.namenode.rpc-address.ns1.nn2</name>
    <value>s102:8020</value>
    </property>
    <property>
    <name>dfs.namenode.http-address.ns1.nn1</name>
    <value>s101:50070</value>
    </property>
    <property>
    <name>dfs.namenode.http-address.ns1.nn2</name>
    <value>s102:50070</value>
    </property>
    <property>
    <name>dfs.client.failover.proxy.provider.ns1</name>
    <value>org.apache.hadoop.hdfs.server.namenode
    .ha.ConfiguredFailoverProxyProvider</value>
    </property>
    <!-- **************ns2********************* -->
    <property>
    <name>dfs.ha.namenodes.ns2</name>
    <value>nn3,nn4</value>
    </property>
    <property>
    <name>dfs.namenode.rpc-address.ns2.nn3</name>
    <value>s103:8020</value>
    </property>
    <property>
    <name>dfs.namenode.rpc-address.ns2.nn4</name>
    <value>s104:8020</value>
    </property>
    <property>
    <name>dfs.namenode.http-address.ns2.nn3</name>
    <value>s103:50070</value>
    </property>
    <property>
    <name>dfs.namenode.http-address.ns2.nn4</name>
    <value>s104:50070</value>
    </property>
    <property>
    <name>dfs.client.failover.proxy.provider.ns2</name>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
    </property>
    <!--***********************************************--> <property>
    <name>dfs.namenode.shared.edits.dir</name>
    <value>qjournal://s102:8485;s103:8485;s104:8485/ns2</value>
    </property> <property>
    <name>dfs.ha.fencing.methods</name>
    <value>
    sshfence
    shell(/bin/true)
    </value>
    </property>
    <property>
    <name>dfs.ha.fencing.ssh.private-key-files</name>
    <value>/home/centos/.ssh/id_rsa</value>
    </property> <property>
    <name>dfs.ha.automatic-failover.enabled</name>
    <value>true</value>
    </property>
    <property>
    <name>dfs.replication</name>
    <value>3</value>
    </property>
    </configuration>

5.2 core-site.xml

<?xml version="1.0"?>
<configuration xmlns:xi="http://www.w3.org/2001/XInclude">
<xi:include href="mountTable.xml" />
<property>
<name>fs.defaultFS</name>
<value>viewfs://ClusterX</value>
</property>
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/home/centos/hadoop/federation/journalnode</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/centos/hadoop/federation</value>
</property>
<property>
<name>ha.zookeeper.quorum</name>
<value>s102:2181,s103:2181,s104:2181</value>
</property>
</configuration>

5.3 mountTable.xml

<configuration>
<property>
<name>fs.viewfs.mounttable.ClusterX.homedir</name>
<value>/home</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./home</name>
<value>hdfs://ns1/home</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./tmp</name>
<value>hdfs://ns2/tmp</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./projects/foo</name>
<value>hdfs://ns1/projects/foo</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./projects/bar</name>
<value>hdfs://ns2/projects/bar</value>
</property>
</configuration>

6、实操

6.1 删除日志和临时目录

$>xcall.sh rm -rf /soft/hadoop/logs/*
$>xcall.sh rm -rf /home/centos/hadoop/federation/*

6.2 修改软连接

$>xcall.sh ln -sfT /soft/hadoop/etc/federation /soft/hadoop/etc/hadoop

6.3 格式化ns1集群

  1. 启动journalnode节点

    登录s102、s103和s104,分别执行以下命令:

    $>hadoop-daemon.sh start journalnode
  2. 格式化nn1节点

    $>hdfs namenode -format
  3. 复制nn1元数据到nn2

    $>scp -r /home/centos/hadoop/federation centos@s102:/home/centos/hadoop
  4. nn2上执行引导

    # s101启动名称节点
    $>hadoop-daemon.sh start namenode
    # s102执行引导,不要重格(N)
    $>hdfs namenode -bootstrapStandby
  5. nn2初始化编辑共享日志

    # 初始化共享编辑日志
    $>hdfs namenode -initializeSharedEdits
  6. 格式化zk节点

    $>hdfs zkfc -formatZK
  7. 启动nn1和nn2的namenode以及容灾控制器

    # s101
    $>hadoop-daemon.sh start zkfc # s102
    $>hadoop-daemon.sh start namenode
    $>hadoop-daemon.sh start zkfc
  8. webui测试

    http://s101:50070

6.4 格式化ns2集群

格式化ns2集群时,务必需要使用ns1的集群id,以保证他们是一个完成的集群。

  1. 格式化nn3,使用nn1的集群id

    $>hdfs namenode -format -clusterId CID-e16c5e2f-c0a5-4e51-b789-008e36b7289a
  2. 复制s103的元数据到s104上

    $>scp -r /home/centos/hadoop/federation centos@s104:/home/centos/hadoop/
  3. 在s104引导

    # 在s103启动namenode
    $>hadoop-daemon.sh start namenode
    # 在s104执行引导
    $>hdfs namenode -bootstrapStandby
  4. 在s104上初始化编辑日志

    $>hdfs namenode -initializeSharedEdits
  5. 在s104对zookeeper格式化zkfc(选择Y)

    $>hdfs zkfc -formatZK
  6. 启动s103和s104的namenode和zkfc进程

    # s103
    $>hadoop-daemon.sh start zkfc
    # s104
    $>hadoop-daemon.sh start namenode
    $>hadoop-daemon.sh start zkfc

6.5 重启集群

$>stop-dfs.sh
$>start-dfs.sh

6.6 创建目录

# 切记,使用-p参数创建上级目录
$>hdfs dfs -mkdir -p /home/data

6.7 上传文件

$>hdfs dfs -put 1.txt /home/data

6.8 webui考察

http://s101:50070/

7、小结

配置联邦模式时,第二个namenode的格式化需要指定clusterid,以保证和之前的集群id相同,同时引入挂载表指定不同目录映射到的namenode集群路径。最后,在指定编辑日志存放地址时,最好不同的namenode集群在各自不同的目录下。联邦模式的引进,有效缓解了namenode节点压力的问题,对namenode实现了扩容和负载平衡。

Hadoop federation配置的更多相关文章

  1. CentOS 7 Hadoop安装配置

    前言:我使用了两台计算机进行集群的配置,如果是单机的话可能会出现部分问题.首先设置两台计算机的主机名 root 权限打开/etc/host文件 再设置hostname,root权限打开/etc/hos ...

  2. ubuntu下hadoop环境配置

    软件环境: 虚拟机:VMware Workstation 10 操作系统:ubuntu-12.04-desktop-amd64 JAVA版本:jdk-7u55-linux-x64 Hadoop版本:h ...

  3. hadoop(四):配置参数

    hadoop参数配置,主要是配置 core-site.xml,hdfs-site.xml,mapred-site.xml 三个配置文件,core-site.xml是全局配置,hdfs-site.xml ...

  4. hadoop mapred-queue-acls 配置(转)

    hadoop作业提交时可以指定相应的队列,例如:-Dmapred.job.queue.name=queue2通过对mapred-queue-acls.xml和mapred-site.xml配置可以对不 ...

  5. hadoop安装配置——伪分布模式

    1. 安装 这里以安装hadoop-0.20.2为例 先安装java,参考这个 去着下载hadoop 解压 2. 配置 修改环境变量 vim ~/.bashrc export HADOOP_HOME= ...

  6. Hadoop平台配置总结

    hadoop的配置,个人感觉是非常容易出问题.一个原因是要配置的地方多,还有个原因就是集群配置要在几台机器上都配置正确,才能保证配置好hadoop,跑起任务. 经过昨晚加今天上午的折腾,总算成功配好了 ...

  7. 有关hadoop分布式配置详解

    linux配置ssh无密码登录 配置ssh无密码登录,先要安装openssh,如下: yum install openssh-clients 准备两台linux服务器或虚拟机,设置两台linux的ho ...

  8. CentOS Hadoop安装配置详细

    总体思路,准备主从服务器,配置主服务器可以无密码SSH登录从服务器,解压安装JDK,解压安装Hadoop,配置hdfs.mapreduce等主从关系. 1.环境,3台CentOS7,64位,Hadoo ...

  9. Hadoop的配置过程(虚拟机中的伪分布模式)

    1引言 hadoop如今已经成为大数据处理中不可缺少的关键技术,在如今大数据爆炸的时代,hadoop给我们处理海量数据提供了强有力的技术支撑.因此,了解hadoop的原理与应用方法是必要的技术知识. ...

随机推荐

  1. Android点击事件(click button)的四种写法

    在学习android开发和测试的时候发现不同的人对于click事件的写法是不一样的,上网查了一下,发现有四种写法,于是想比较一下四种方法的不同 第一种方法:匿名内部类 代码: package com. ...

  2. Gradle 引入本地定制 jar 包

    第 1 步:创建文件夹,拷贝 jar 包 在自己的 Gradle 项目里建立一个名为 “libs” (这个名字可以自己定义,不一定非要叫这个名字)的文件夹,把自己本地的 jar 包拷贝到这个文件夹中. ...

  3. Unity 动画系统 AnimationEvent 动画事件

  4. Django 11 form表单(状态保持session、form表单及注册实现)

    Django 11 form表单(状态保持session.form表单及注册实现) 一.状态保持 session 状态保持 #1.http协议是无状态的:每次请求都是一次新的请求,不会记得之前通信的状 ...

  5. A. The number of positions

    A. The number of positions time limit per test 0.5 second memory limit per test 256 megabytes input ...

  6. 1.2 rust cargo

    cargo是rust的编译与打包工具,可将rust打包成为一个可执行性文件.生成的可执行性文件不能跨系统的大版本,比如在linux7上打包,那么程序无法在linux6上执行. # cargo new ...

  7. Subarray Sum K

    Given an nonnegative integer array, find a subarray where the sum of numbers is k. Your code should ...

  8. Charles抓包使用总结

    一.简介 Charles是目前最强大最流行的http抓包调试工具,Mac.Unix.Windows各个平台都支持.特别是做APP开发,调试与服务端的通信,Charles是必备工具. 二.Charles ...

  9. Jquery ValidationEngine 修改验证提示框的位置

    <!doctype html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  10. 笔记本Win8 换Win7 设置 BIOS

    去年买了台笔记本,笔记本自带win8系统,想安装Win7折腾了好久都没有安装成功 后来在BIOS中找到了一个uefi/legacy boot项,将原来的uefi only 修改为legacy only ...