前面介绍过使用NFS+zookeeper来解决namenode单点失败问题,因为NFS可能也会存在单点问题,所以hadoop提供了一种叫做JournalNode技术,这项技术可以在JournalNode节点间共享数据 我们来介绍这一种技术:JournalNode+ zookeeper Hadoop 版本:2.2.0 OS 版本: Centos6.4 Jdk 版本: jdk1.6.0_32 环境配置 机器名 Ip地址 功能 Hadoop1 192.168.124.135 NameNode, Dat…
前面介绍过hadoop的简单安装和FA安装,在这里将介绍几种hadoop2中HA(高可用性)安装,HA技术使hadoop不再存在单点namenode的故障. 先来第一种:nfs+zookeeper Hadoop 版本:2.2.0 OS 版本: Centos6.4 Jdk 版本: jdk1.6.0_32 环境配置 机器名 Ip地址 功能 Hadoop1 192.168.124.135 NameNode, DataNode, ResourceManager, NodeManager Zookeepe…
Hadoop 2.6安装文档 版本说明:hadoop 2.6  linux-64位 Zookeeper3.4.6 jdk 1.7.0_75 1.       Ssh无密码 ssh-keygen vimauthorized_keys 把每台机子上的id_rsa.pub内容拷贝到authorized_keys Scp到其它机器上 2.       jdk安装 解压目录 jdk环境变量 3.       Zookeeper安装 详见zookeeper安装文档 4.       必要目录创建 NameN…
hadoop集群规划 目标:创建2个NameNode,做高可用,一个NameNode挂掉,另一个能够启动:一个运行Yarn,3台DataNode,3台Zookeeper集群,做高可用. 在 hadoop2中通常由两个NameNode组成,一个处于active状态,另一个处于standby状态.Active NameNode对外提供服务,而Standby NameNode则不对外提供服务,仅同步active namenode的状态,以便能够在它失败时快速进行切换. 这里还配置了一个zookeepe…
完整PDF版本:<Apache Hadoop2.x边安装边入门> 目录 第一部分:Linux环境安装 第一步.配置Vmware NAT网络 一. Vmware网络模式介绍 二. NAT模式配置 第二步.安装Linux操作系统 三. Vmware上安装Linux系统 四.设置网络 五.修改Hostname 六.配置Host 七.关闭防火墙 八.关闭selinux 第三步.安装JDK 九.安装Java JDK 第二部分:Hadoop本地模式安装 第四步. Hadoop部署模式 第五步.本地模式部署…
1.Zookeeper安装 1.解压 zookeeper 到安装目录中/opt/app/zookeeper 中. 2.在安装目录下创建data和logs两个目录用于存储数据和日志: cd /opt/app/zookeeper-3.4.10 mkdir dir_data mkdir dir_logs 3.在conf目录下新建zoo.cfg文件,写入以下内容保存: tickTime=2000 dataDir=/opt/app/zookeeper-3.4.10/dir_data dataLogDir=…
hadoop2.6  HA平台搭建   一.条件准备 软件条件: Ubuntu14.04 64位操作系统, jdk1.7 64位,Hadoop 2.6.0,  zookeeper 3.4.6 硬件条件: 1台主节点机器,配置:cpu 8个,内存32G,硬盘200G 5台从节点机器,配置均为:cpu 4个,内存16G,硬盘200G 各个节点IP如下: 服务器名字 Ip地址 备注(为方便操作将hostname改为如下) Hd-Name Node 192.168.0.10 master Hd-Data…
准备 1.1修改主机名,设置IP与主机名的映射 [root@xuegod74 ~]# vim /etc/hosts 192.168.1.73 xuegod73 192.168.1.74 xuegod74 192.168.1.75 xuegod75 192.168.1.76 xuegod76 192.168.1.77 xuegod77 192.168.1.78 xuegod78 192.168.1.79 xuegod79 192.168.1.80 xuegod80 192.168.1.81 xue…
简介: 最近在看hadoop的一些知识,下面搭建一个ha (高可用)的hadoop完整分布式集群: hadoop的单机,伪分布式,分布式安装 hadoop2.8 集群 1 (伪分布式搭建 hadoop2.8 ha 集群搭建 hbase完整分布式集群搭建 hadoop完整集群遇到问题汇总 搭建步骤: 主机 别名 安装软件 现有进程 服务地址 192.168.248.138 cdh1 hadoop2.8 jdk1.8 namenode DFSZKFailoverController http://c…
原文地址:http://blog.csdn.net/hilyoo/article/details/7704280 1.CAP理论 1) CAP 理论给出了3个基本要素: 一致性 ( Consistency) :任何一个读操作总是能读取到之前完成的写操作结果: 可用性 ( Availability) :每一个操作总是能够在确定的时间内返回: 分区可容忍性 (Tolerance of network Partition) :在出现网络分区的情况下,仍然能够满足一致性和可用性: CAP 理论指出,三者…
主从机构 主:jobtracker 从:tasktracker 四个阶段 1. split 2. Mapper: key-value(对象) 3. shuffle a)  分区(partition,HashPartition:根据 key 的 hashcode值 和 Reduce 的数量 模运算),可以自定义分区,运算速度要快,一定要解决数据倾斜和reduce 的负载均衡. b)  排序: 默认按照字典排序.WriterCompartor(比较) c)  合并:减少当前mapper输出数据,根据…
Linux Hadoop2.7.3 安装(单机模式) 一 Linux Hadoop2.7.3 安装(单机模式) 二 java环境安装 http://www.cnblogs.com/zeze/p/5902124.html java 环境安装配置 etc/profile: export JAVA_HOME=/usr/jdk/jdk1..0_112 export JRE_HOME=/usr/jdk/jdk1..0_112/jre export CLASSPATH=.:$JAVA_HOME/lib/dt…
Linux Hadoop2.7.3 安装(单机模式) 一 Linux Hadoop2.7.3 安装(单机模式) 二 YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster. 其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理. 创建一个words.txt…
文 / vincentzh 原文连接:http://www.cnblogs.com/vincentzh/p/6034187.html 这里写点 Hadoop2.6.0集群的安装和简单配置,一方面是为自己学习的过程做以记录,另一方面希望也能帮助到和LZ一样的Hadoop初学者,去搭建自己的学习和练习操作环境,后期的 MapReduce 开发环境的配置和 MapReduce 程序开发会慢慢更新出来,LZ也是边学习边记录更新博客,路人如有问题欢迎提出来一起探讨解决,不足的地方希望路人多指教,共勉! 目…
作业题目 位系统下进行本地编译的安装方式 选2 (1) 能否给web监控界面加上安全机制,怎样实现?抓图过程 (2)模拟namenode崩溃,例如将name目录的内容全部删除,然后通过secondary namenode恢复namenode,抓图实验过程 (3) 怎样改变HDFS块大小?实验验证并抓图过程 (4) 把secondary namenode和namenode分离,部署到单独的节点,抓图实验过程 (5) 在Hadoop集群实施成功后,再次格式化名称节点,请问此时datanode还能加入…
Hadoop2.7.1安装与配置 http://www.oschina.net/question/117352_247251 http://www.cnblogs.com/wayne1017/archive/2007/03/18/668768.html http://www.oschina.net/question/117352_247251 http://blog.csdn.net/zcf1002797280/article/details/49500027 http://www.cnblog…
Hadoop-2.4.0安装和wordcount执行验证 下面描写叙述了64位centos6.5机器下,安装32位hadoop-2.4.0,并通过执行 系统自带的WordCount样例来验证服务正确性的步骤. 建立文件夹 /home/QiumingLu/hadoop-2.4.0,以后这个是hadoop的安装文件夹. 安装hadoop-2.4.0,解压hadoop-2.4.0.tar.gz到文件夹 /home/QiumingLu/hadoop-2.4.0就可以 [root@localhosthad…
0x00 说明 此处已经省略基本配置步骤参考Hadoop1.0.3环境搭建流程,省略主要步骤有: 建立一般用户 关闭防火墙和SELinux 网络配置 0x01 配置master免密钥登录slave 生成密钥 $ su hadoop $ ssh-keygen -t rsa 将id_rsa.pub追加到授权key中(要将所有slave节点的公钥都追加到该文件中,此处仅列举一条命令) $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 将authori…
ActiveMQ 高可用集群安装.配置(ZooKeeper + LevelDB) 1.ActiveMQ 集群部署规划: 环境: JDK7 版本:ActiveMQ 5.11.1 ZooKeeper 集群环境:10.14.0.1:2181,10.14.0.2:2182,10.14.0.3:2183(ZooKeeper 集群部署请参考<ZooKeeper 集群的安装.配置>) 主机 集群端口 消息端口 管控台端口 节点安装目录 10.14.0.1 63631 53531 8361 /opt/prod…
操作系统:centos6.6 环境:selinux disabled:iptables off:java 1.8.0_131 安装包:hadoop-2.5.0.tar.gz HA模式下的HADOOP完全分布式模式(使用于避免单点故障的环境)…
原因为:主机名不能为域名.更换成hadoop64 这种解决.…
1.课程环境 本课程涉及的技术产品及相关版本: 技术 版本 Linux CentOS 6.5 Java 1.7 Hadoop2.0 2.6.0 Hadoop1.0 1.2.1 Zookeeper 3.4.6 CDH Hadoop 5.3.0 Vmware 10 Hive 0.13.1 HBase 0.98.6 Impala 2.1.0 Oozie 4.0.0 Hue 3.7.0 2.内容简介 本教程针对有一定Hadoop基础的学员,深入讲解如下方面的内容: 1.Hadoop2.0高阶运维,包括H…
前段时间在dataguru上报了一个hadoop的培训班,希望能够帮助自己更快的了解.掌握并且熟悉hadoop的开发和原理. 上一期的作业是要自己搭建一个hadoop的环境,并能运行mapreduce,我们公司的实验室中已经在10台机器上搭建了用来测试的hadoop环境,于是我利用了其中三台datanode,新建了一个帐号,又搭建了一个由三台服务器组成的小型的hadoop+HA+完全分布式的集群. 现在将搭建的过程写成博客,希望能帮助到有同样需求的朋友! 我这里用到的三台机器,主机名分别为ut0…
上一次搭建的Hadoop是一个伪分布式的,这次我们做一个用于个人的Hadoop集群(希望对大家搭建集群有所帮助): 集群节点分配: Park01 Zookeeper NameNode (active) Resourcemanager (active) Park02 Zookeeper NameNode (standby) Park03 Zookeeper ResourceManager (standby) Park04 DataNode NodeManager JournalNode Park0…
配置方案如图   NN DN ZK ZKFC JN RM NM(任务管理器) HMaster Region Server Node1 1 1 1 1 1 Node2 1 1 1 1 1 1 1 Node3 1 1 1 1 1 1 Node4 1 1 1 1 1 一.进入hadoop2.7/etc/hadoop/文件夹,修改hadoop-env.sh的JAVA_HOME路径. 二. 修改hdfs-site.xml配置文件 1.配置命名服务 <property> <name>dfs.n…
HDFS-HA原理及配置 1.HDFS-HA架构原理介绍 hadoop2.x之后,Clouera提出了QJM/Qurom Journal Manager,这是一个基于Paxos算法实现的HDFS HA方案,它给出了一种较好的解决思路和方案,示意图如下: 基本原理就是用2N+1台 JN 存储EditLog,每次写数据操作有大多数(>=N+1)返回成功时即认为该次写成功,数据不会丢失了.当然这个算法所能容忍的是最多有N台机器挂掉,如果多于N台挂掉,这个算法就失效了.这个原理是基于Paxos算法 在H…
1.HDFS-HA架构原理介绍 hadoop2.x之后,Clouera提出了QJM/Qurom Journal Manager,这是一个基于Paxos算法实现的HDFS HA方案,它给出了一种较好的解决思路和方案,示意图如下: 1)基本原理就是用2N+1台 JN 存储EditLog,每次写数据操作有大多数(>=N+1)返回成功时即认为该次写成功,数据不会丢失了.当然这个算法所能容忍的是最多有N台机器挂掉,如果多于N台挂掉,这个算法就失效了.这个原理是基于Paxos算法 2)在HA架构里面Seco…
1.HDFS-HA架构原理介绍 hadoop2.x之后,Clouera提出了QJM/Qurom Journal Manager,这是一个基于Paxos算法实现的HDFS HA方案,它给出了一种较好的解决思路和方案,示意图如下: 1)基本原理就是用2N+1台 JN 存储EditLog,每次写数据操作有大多数(>=N+1)返回成功时即认为该次写成功,数据不会丢失了.当然这个算法所能容忍的是最多有N台机器挂掉,如果多于N台挂掉,这个算法就失效了.这个原理是基于Paxos算法 2)在HA架构里面Seco…
补充了一下NameNode启动过程中有关FSImage与EditsLog的相关知识. 一.什么是FSImage和EditsLog 我们知道HDFS是一个分布式文件存储系统,文件分布式存储在多个DataNode节点上.一个文件存储在哪些DataNode节点的哪些位置的元数据信息(metadata)由NameNode节点来处理.随着存储文件的增多,NameNode上存储的信息也会越来越多.那么HDFS是如何及时更新这些metadata的呢?  在HDFS中主要是通过两个组件FSImage和Edits…
用户配置: User :root Password:toor 2.创建新用户 student Pwd: student 3.安装virtualbox的增强工具软件 4.系统默认安装的是openjdk 1.7.0.5 没有jps等工具可以使用. 但hadoop应该是可以在openjdk中使用的. 卸载openjdk,下载安装oracle jdk. for i in $(rpm -qa | grep openjdk | grep -v grep) do echo "Deleting rpm ->…