hadoop 笔记(zookeeper)】的更多相关文章

引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭…
[推荐]Hadoop+HBase+Zookeeper集群的配置 Hadoop+HBase+Zookeeper集群的配置  http://wenku.baidu.com/view/991258e881c758f5f61f67cc.html?re=view HDFS+MapReduce+Hive+HBase十分钟快速入门   http://wenku.baidu.com/view/7db2fcd276eeaeaad1f33055.html Hadoop+Zookeeper+HBase部署指南  ht…
基本理念:尽可能的参考官方英文文档 Hadoop:  http://wiki.apache.org/hadoop/FrontPage HBase:  http://hbase.apache.org/book.html Zookeeper:  https://cwiki.apache.org/confluence/display/ZOOKEEPER/Index 环境介绍 Ubuntu 14.04LTS, 32位 接下来则按照Hadoop,HBase,Zookeeper顺序来进行源码编译,建立文件夹…
事前准备 1.更改Linux主机名,每个人都有配置 vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop-server1 2.改动IP /etc/sysconfig/network-scripts/ifcfg-eth0 3.改动主机名和IP的映射关系 vim /etc/hosts 192.168.146.181 hadoop-server1 192.168.146.182 hadoop-server2 192.168.146.183…
Hadoop生态圈-zookeeper完全分布式部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客部署是建立在Hadoop高可用基础之上的,关于Hadoop高可用部署请参考:https://www.cnblogs.com/yinzhengjie/p/9070017.html.本篇博客是将Hadoop的高可用配置和zookeeper完全分布式结合使用! 一.分布式协调框架 1>.分布式框架的好处 a>.可靠性: 一个或几个节点的崩溃不会导致整个集群的崩溃. b>…
Hadoop生态圈-Zookeeper的工作原理分析 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.   无论是是Kafka集群,还是producer和consumer都依赖于Zookeeper集群保存一些mate信息,来保证系统可用性!这个特点会产生一个现象,即会产生大量的网络IO,所以说在企业生产环境中会单独开3到5台集群,这三台集群什么都不干,只开Zookeeper集群.所以说Zookeeper开放的节点一定要开网络监控告警,这是一个大数据运维的基本功! 一.Zookee…
原文地址:https://www.cnblogs.com/hanzhi/articles/8794984.html 目录 引言 目录 一环境选择 1集群机器安装图 2配置说明 3下载地址 二集群的相关配置 1主机名更改以及主机和IP做相关映射 更改主机名 做主机和IP的关系映射 2ssh免登录 3防火墙关闭 4时间配置 5快捷键设置可选 6整体环境变量设置 二Hadoop的环境搭建 1JDK配置 2hadoop配置 21 文件准备 22 环境配置 23 修改配置文件 231 修改 core-si…
Hadoop生态圈-zookeeper本地搭建以及常用命令介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.下载zookeeper软件 下载地址:https://www.apache.org/dyn/closer.cgi/zookeeper/ 二.安装zookeeper 1>.解压源文件 [yinzhengjie@s101 ~]$ .tar.gz -C /soft/ 2>.创建软连接 [yinzhengjie@s101 ~]$ / /soft/zk 3>.配置环…
Hadoop生态圈-zookeeper的API用法详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.测试前准备 1>.开启集群 [yinzhengjie@s101 ~]$ more `which xzk.sh` #!/bin/bash #@author :yinzhengjie #blog:http://www.cnblogs.com/yinzhengjie #EMAIL:y1053419035@qq.com #判断用户是否传参 ];then echo "无效参数…
代码:https://github.com/xufeng79x/ZkClientTest 1.简介 zookeeper的基本原理和使用场景描述可参考:[hadoop][基本原理]zookeeper基本原理 本文主要讲解zookeeper节点的增删除改查,以及watcher的使用. 2.工程准备 除了zookeeper的自身API外,有两个开源的api更加方便的去让开发者使用----ZkClient和Curator. 上述两个开源API中个人感觉ZkClient使用起来更加直观明了,所以在这里我会…
目录: 软件准备 Hadoop安装配置 zookeeper安装配置 Hbase安装配置 Hadoop+Hbase+zookeeper分布式存储构建 前言* Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊.Facebook和Yahoo等等.对于我来说,最近的一个使用点就是服务集成平台的日志分析.服务集成平台的日志量将会很大,而这也正好符合了分布式计算的适用场景(日志分析和索引建立就是两大应用场景). 今天我们来实际搭建一下Hadoop 2.2…
1.配置ssh免密登录 (本人使用的是centOS7虚拟机) (本人未在root用户下安装,建议使用root用户,不然很麻烦!!) ① 本机无密钥登录 1.进入~/.ssh目录(若无,则执行一次ssh localhost), 2.执行ssh-keygen -t rsa命令(回车即可), 我弄过了所以已经有啦! 3.再执行cat ./id_rsa.pub >> ./authorized_keys命令,把id_rsa.pub追加到授权的key里面, 4.给authorized_keys授权chmo…
zookeeper是一个自动管理分布式集群的一个工具,以实现集群的高可用. 比如集群中的一个机器挂掉了,没有zookeeper的话就得考虑挂一个机器对剩下集群工作的影响,而有了zookeeper,它就能自动帮你协调这些事儿. 正规的解释如下: zookeeper是 一个开源的针对大型分布式系统的可靠协调系统. 设计目标是:将复杂且容易出错的分布式式一致性服务封装起来,构成一个高效可靠的原语集, 并以简单易用的接口提供给用户使用. 提供的功能包括:发布/订阅,分布式协调/通知,配置管理,集群管理,…
timeout表示会话超时时间,zookeeper靠与客户的心跳来判断会话是否有效(单位毫秒), -r为只读,表示zookeeper如果与半数以上服务器失去连接则会停止服务,如果有-r参数,则会继续保留只读服务 -server ip和端口 connected表示连接成功,输入h获取帮助列表 一般通过对节点的增删改查来完成系统功能…
linux中/opt一般用来存放应用/var目录一般用来存放日志 sample为样例文件,复制一份zoo.cfg文件 配置zoo文件,id为服务器id(整数),host为服务器的ip地址,第一个port为follow的端口,第二个port为leader选举端口,输入任意可用值即可 创建一个zookeeper目录,用来存放日志,而后修改zoo文件中dataDir配置: 在目录下新建一个myid文件,里面写入该服务器的server后的id: 而后再另外两台做相同操作,但是myid中的数字需要作出修改…
顺序一致性:严格按照顺序在zookeeper上执行 原子性:所有事物请求的结果,在整个集群的应用情况一致 单一视图:无论从哪个服务器进入集群,看到的东西都是一致的 可靠性:服务端成功响应后,状态会 一直保留 3台的zookeeper集群达到12-13万QPS 客户端在zookeeper注册监听器,zookeeper会给客户端通知…
1.安装 需要提前安装java环境,本文下载zookeeper-3.3.6.tar.gz包. 1.1 tar -zxvf zookeeper-3.3.6.tar.gz 1.2 修改conf中的zoo_sample.cfg为zoo.cfg 2.服务端命令 /bin/zkServer.sh start //启动服务 /bin/zkServer.sh stop //停止服务 /bin/zkServer.sh restart //重启服务 /bin/zkServer.sh status //查看状态 3…
所有服务器都会先将自己的服务器信息注册到servers中,然后每台服务器都会尝试注册master,哪台注册成功,则哪台就是master服务器. 所有的服务器都会关注master节点的删除事件,这样通过监听是否发生删除事件来确定master服务器是否宕机,宕机后需要重新选出一台 新机器来作为master: LeaderSelectorZkClient:调度器 Work Server:主工作类 RunningData:描述Work Server基本信息 除了master主动释放和master服务器宕…
学习资料参考地址: 1.http://blog.csdn.net/zhoudaxia/article/details/8801769 1.先说说什么是Hadoop? 个人理解:一个分布式文件存储系统+一个分布式计算框架,在其上还有很多的开源项目来丰富他的功能,如Hbase,hive等等.官方:Hadoop是一个用Java编写的开源系统,可安排在大规模的计算平台上,从而提高计算效率.本质上它只是一个海量数据处理平台架构. 2.Hadoop与MapReduce,有什么关系? Hadoop生态圈的三个…
目录 · 概况 · Hadoop · 云计算 · 大数据 · 数据挖掘 · 手工搭建集群 · 引言 · 配置机器名 · 调整时间 · 创建用户 · 安装JDK · 配置文件 · 启动与测试 · Cloudera Manager · 原理 · Hadoop架构 · 性能调优 · 硬件选型 · 操作系统调优 概况 Hadoop 1. ASF(Apache软件基金会)给出定义:Hadoop软件库是一个框架,允许在集群中使用简单的编程模型对大规模数据集进行分布式计算. 2. Hadoop生态圈 a) H…
高可用(Hign Availability,HA) 一.概念 作用:用于解决负载均衡和故障转移(Failover)问题. 问题描述:一个NameNode挂掉,如何启动另一个NameNode.怎样让两个NameNode数据同步. 实现原理: 在另一台服务器上有一个相同的NameNode节点,这台服务器上的 NameNode的状态为standBy.正在运行的NameNode的状态为Active. 解决两个NameNode信息同步问题:因为如果一个NameNode挂掉,另一个NameNode的edit…
1.安装Linux 需要:3台CentOS7虚拟机 IP:192.168.245.130,192.168.245.131,192.168.245.132(类似,尽量保持连续,方便记忆) 注意: 3台虚拟机的网络设置为NAT模式,这样安装好后的3台虚拟机的IP是挨着的,不然还要修改IP,以达到便于配置集群的目的! NAT模式可以在断网的情况下连接上虚拟机而桥架模式不行! 2.安装JDK 参考我的博客:https://www.cnblogs.com/yszd/p/10140327.html 3.运行…
(参考文章:https://www.linuxprobe.com/hadoop-high-available.html) 一.技术背景 影响HDFS集群不可用主要包括以下两种情况:一是NameNode机器宕机,将导致集群不可用,重启NameNode之后才可使用:  二是计划内的NameNode节点软件或硬件升级,导致集群在短时间内不可用. 为了解决上述问题,Hadoop给出了HDFS的高可用HA方案:HDFS通常由两个NameNode组成,一个处于active状态,另一个处于standby状态.…
软件版本号: JDK:jdk-8u45-linux-i586.tar.gz Zookeeper:zookeeper-3.4.6 Hbase:hbase-1.0.0-bin 一.JDK版本更换 由于之前安装的jdk-6u45-linux-i586版本较低,与Hbase不兼容,因此更换为jdk-8u45-linux-i586 1.jdk 1.6卸载 (1)删除jdk目录:sudo rm -rf /opt/jdk1.6.0_45 (2)删除jdk环境变量:sudo gedit /etc/profile…
- ::, [myid:] - WARN [WorkerSender[myid=]:QuorumCnxManager@] - Cannot open channel to at election address cdh03/ java.net.ConnectException: Connection refused (Connection refused) at java.net.PlainSocketImpl.socketConnect(Native Method) at java.net.A…
摘要: 本文主要介绍搭建Hadoop.HBase.Zookeeper集群环境的搭建 一.基础环境准备 1.下载安装包(均使用当前最新的稳定版本,截止至2017年05月24日) 1)jdk-8u131 下载地址:Java SE Development Kit 8 2)hadoop-2.7.3 下载地址:Index of /apache/hadoop/common/hadoop-2.7.3 3)hbase-1.2.5 下载地址:Index of /apache/hbase/1.2.5 4)zooke…
Hadoop及HBase集群部署 一. 集群环境 系统版本 虚拟机:内存 16G CPU 双核心 系统: CentOS-7 64位 系统下载地址: http://124.202.164.6/files/417500000AB646E7/mirrors.163.com/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1708.iso 软件版本 hadoop-2.8.1.tar.gz hbase-1.3.1-bin.tar.gz zookeeper-3.4.10.t…
代码:https://github.com/xufeng79x/ZkClientTest 1. 简介 zookeeper的特性决定他适用到某些场景非常合适,比如典型的应用场景: 1.集群管理(Group Membership) 2.统一命名服务(Name Service) 3.配置管理(Configuration Management) 4.共享锁(Locks) 5.队列管理 2.集群管理 在hadoop中主备节点的概念大家都应该不默认,比如HBase中,我们可以启动多个master节点,但是在…
1.简介 https://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 2. 数据模型 Zookeeper 会维护一个具有层次关系的数据结构,它非常类似于一个标准的文件系统,如图所示: Zookeeper 这种数据结构有如下这些特点: 每个子目录项如 NameService 都被称作为 znode,这个 znode 是被它所在的路径唯一标识,如 Server1 这个 znode 的标识为 /NameService/Server…
(1) Zookeeper 在 Hadoop 集群中的作用 Zookeeper 是分布式管理协作框架,Zookeeper 集群用来保证 Hadoop 集群的高可用,(高可用的含义是:集群中就算有一部分服务器宕机,也能保证正常地对外提供服务.) (2) Zookeeper 保证高可用的原理 Zookeeper 集群能够保证 NameNode 服务高可用的原理是:Hadoop 集群中有两个 NameNode 服务,两个NameNode 都定时地给 Zookeeper 发送心跳,告诉 Zookeepe…