JAVA API连接HDFS HA集群

使用JAVA API连接HDFS时我们需要使用NameNode的地址,开启HA后,两个NameNode可能会主备切换,如果连接的那台主机NameNode挂掉了,连接就会失败. HDFS提供了nameservices的方式进行访问,这样只要有一个NameNode活着,都可以正常访问.

HDFS NameNode HA

在没有HA的环境中,通常使用NameNode hostname访问HDFS的URL.

hdfs://hostname1.hadoop.local:8020

为了保证HDFS服务的高可用,生产环境是必须要开启NameNode HA的,此时应该用nameservices作为统一的logical name连接HDFS.

使用Ambari Enable NameNode HA之后,我的集群在hostname2.hadoop.local上增加了一个NameNode, HA相关的配置会自动产生.

首先在Ambari UI上查看custom hdfs-site配置. 注意端口号要配成rpc的端口号,而不能是http/https的.

dfs.nameservices=mycluster

dfs.namenode.rpc-address.mycluster.nn1=hostname1.hadoop.local:8020

dfs.namenode.rpc-address.mycluster.nn2=hostname2.hadoop.local:8020

dfs.ha.namenodes.mycluster=nn1,nn2

使用nameservices访问HDFS的URL:

hdfs://mycluster:8020

JAVA API连接HDFS HA代码如下:

Configuration conf=new Configuration(false);

String nameservices = "mycluster";

String[] namenodesAddr = {"ochadoop111.jcloud.local:8020","ochadoop112.jcloud.local:8020"};

String[] namenodes = {"nn1","nn2"};

conf.set("fs.defaultFS", "hdfs://" + nameservices);

conf.set("dfs.nameservices",nameservices);

conf.set("dfs.ha.namenodes." + nameservices, namenodes[0]+","+namenodes[1]);

conf.set("dfs.namenode.rpc-address." + nameservices + "." + namenodes[0], namenodesAddr[0]);

conf.set("dfs.namenode.rpc-address." + nameservices + "." + namenodes[1], namenodesAddr[1]);

conf.set("dfs.client.failover.proxy.provider." + nameservices,"org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider");

String hdfsRPCUrl = "hdfs://" + nameservices + ":" + 8020;

DistributedFileSystem dfs = new DistributedFileSystem();

try {

dfs.initialize(URI.create(hdfsRPCUrl),conf);

Path tmpPath2 = new Path("/tmp2");

dfs.mkdir(tmpPath2,new FsPermission("777"));

FileStatus[] list = dfs.listStatus(new Path("/"));

for (FileStatus file : list) {

System.out.println(file.getPath());

}

dfs.setQuota(tmpPath2,100,1000);

} catch (IOException e) {

e.printStackTrace();

} finally{

try {

dfs.close();

} catch (IOException e) {

e.printStackTrace();

}

WebHDFS访问

通过WebHDFS访问HA集群时,就没有rpc方式那么方便了,有四种解决方法,我觉得第4个方法最简单, YARN的ResourceManager HA我就是按这个思路处理的.

使用httpfs,这个是CDH的产品,需要额外安装

使用knox安全网关,这样访问的接口就都被knox统一了

每次访问之前都从zookeeper中拿当前Active NameNode的地址

每次访问轮询两个namenode

YARN ResourceManager HA

ResourceManager HA存在与NameNode HA类似的问题,能否通过统一的logical name访问RM的REST API呢? 答案是暂时不支持.

目前YARN只能支持standy RM把请求重定向到Active RM上. 也就是说假如主备RM都活着,当客户端向standby RM发HTTP请求时,standby RM会重定向到active RM上,但是如果standby RM不幸挂掉了,而Active RM还正常工作,此时请求就会失败.

解决方法其实也很简单,就是在调用RM REST API时轮询两个RM.

JAVA API连接HDFS HA集群的更多相关文章

使用QJM部署HDFS HA集群
一.所需软件 1. JDK版本下载地址:http://www.oracle.com/technetwork/java/javase/index.html 版本: jdk-7u79-linux-x64 ...
ZooKeeper学习之路（九）利用ZooKeeper搭建Hadoop的HA集群
Hadoop HA 原理概述为什么会有 hadoop HA 机制呢? HA:High Available,高可用在Hadoop 2.0之前,在HDFS 集群中NameNode 存在单点故障 (SP ...
Hadoop(HDFS,YARN)的HA集群安装
搭建Hadoop的HDFS HA及YARN HA集群,基于2.7.1版本安装. 安装规划角色规划 IP/机器名安装软件运行进程 namenode1 zdh-240 hadoop NameNode ...
HDFS的HA集群原理分析
1.简单hdfs集群中存在的问题不能存在两个NameNode 单节点问题单节点故障转移 2.解决单节点问题找额外一个NameNode备份原有的数据会出现脑裂脑裂:一个集群中多个管理者数据 ...
HUE配置文件hue.ini 的hdfs_clusters模块详解（图文详解）（分HA集群和非HA集群）
不多说,直接上干货! 我的集群机器情况是 bigdatamaster(192.168.80.10).bigdataslave1(192.168.80.11)和bigdataslave2(192.168 ...
HUE配置文件hue.ini 的liboozie和oozie模块详解（图文详解）（分HA集群）
不多说,直接上干货! 我的集群机器情况是 bigdatamaster(192.168.80.10).bigdataslave1(192.168.80.11)和bigdataslave2(192.168 ...
hadoop2.8 ha 集群搭建
简介: 最近在看hadoop的一些知识,下面搭建一个ha (高可用)的hadoop完整分布式集群: hadoop的单机,伪分布式,分布式安装 hadoop2.8 集群 1 (伪分布式搭建 hadoop ...
Hadoop HA集群与开发环境部署
每一次 Hadoop 生态的更新都是如此令人激动像是 hadoop3x 精简了内核,spark3 在调用 R 语言的 UDF 方面,速度提升了 40 倍所以该文章肯定得配备上最新的生态 hadoo ...
安装spark ha集群
安装spark ha集群 1.默认安装好hadoop+zookeeper 2.安装scala 1.解压安装包 tar zxvf scala-2.11.7.tgz 2.配置环境变量 vim /etc/p ...

随机推荐

VS混淆/反编译/远程调试/Spy++的Tools工具
VS的Tools工具(混淆/反编译/远程调试/Spy++等) https://blog.csdn.net/chunyexiyu/article/details/14445605 参考:http://b ...
窗口、消息查看分析利器Spy++
Spy++ —— 窗口.消息查看分析利器 Spy++ —— 窗口.消息查看分析利器 2016年07月15日 00:25:22 阅读数:23170 1,简介 Microsoft Spy++是一个非常 ...
Django中cookie和session的操作
一.cookie和session cookie:在网站中,http请求是无状态的.也就是说即使第一次和服务器连接后并且登录成功后,第二次请求服务器依然不能知道当前请求是哪个用户.cookie的出现就是 ...
【Luogu P1345】[USACO5.4]奶牛的电信Telecowmunication
Luogu P1345 很容易发现这题要求的是网络流中的最小割. 关于最小割,我们有最大流最小割定理:最小割的容量一定等于最大流的流量但是这个定理是用于求最小割边,而题目要求我们求的是最小割点. 那 ...
torch.Tensor和numpy.ndarray
1. torch.Tensor和numpy.ndarray相互转换 import torch import numpy as np # <class 'numpy.ndarray'> np ...
爬虫探索Chromedriver+Selenium初试
今天分享Python使用Chromedriver+Selenium爬虫的的方法,Chromedriver是一个有意思的爬虫插件,这个插件的爬虫方式主要是完全模拟浏览器点击页面,一步一步去找你要的东西, ...
理解atoi()函数
atoi函数功能:字符串转化为整型数 #include <iostream> using namespace std; int atoi_my(const char *str) { ; ...
javascript之new操作符
new 运算符做了哪些事情 1.新生成了一个对象 2.链接到原型 3.绑定 this 4.返回新对象自己实现一个 new function create() { // 创建一个空的对象 let ob ...
BSGS和EXBSGS
也许更好的阅读体验 \(Description\) 给定\(a,b,p\),求一个\(x\)使其满足\(a^x\equiv b\ \left(mod\ p\right)\) \(BSGS\) \(BS ...
Asp.Net Mvc 整站Https
网站要使用https需要如下几个步骤 1.申请https证书,现在已经有很多免费的https证书申请了 2.服务器中安装证书 3.网站的连接全部改为https连接 Asp.Net Mvc网站中整站改为 ...

JAVA API连接HDFS HA集群

JAVA API连接HDFS HA集群的更多相关文章

随机推荐

热门专题