ZooKeeper系列文章:https://www.cnblogs.com/f-ck-need-u/p/7576137.html#zk


ZooKeeper: 分布式协调服务

ZooKeeper是一个开源的为分布式应用提供分布式协调的服务。它公开了一组简单的原语,分布式应用程序可以基于这些原语实现更高级别的服务,包括同步、维护配置、组和命名。它的设计易于编程,它使用一个遵循文件系统中常见的目录树结构的数据模型。它在Java环境中运行,对Java和C都有绑定。

协调服务是出了名的难。它们特别容易出错,如竞态条件和死锁。ZooKeeper背后的动机是让分布式应用从零开始实现一站式协调服务。

设计目标

ZooKeeper很简单。通过共享一个类似于标准文件系统结构的层次名称空间,Zookeeper允许分布式进程进行各自的协调。名称空间中包含了注册数据——即所谓的znodes,它们类似于文件和目录。Zookeeper不像文件系统,目的是数据存储,Zookeeper的数据存放在内存中,这意味着zookeeper具有高吞吐量和低延迟的优点。

ZooKeeper非常注重高性能、高可用性、严格有序的访问。ZooKeeper的性能方面意味着它可以在大型分布式系统中使用。可靠性方面使它不会出现单点故障。严格有序意味着可以在客户端实现复杂的同步原语。

ZooKeeper是复制的。与它所协调的分布式进程一样,ZooKeeper本身也打算在一组主机上进行复制。

组成ZooKeeper的每个server之间都必须互相了解。每个server都维护状态信息(state)的内存映像,以及持久存储中的事务日志和快照。只要ZooKeeper中的大多数server可用,ZooKeeper服务就可用。

每个client连接到ZooKeeper集群中的某个server。客户端会与之建立TCP连接,通过该TCP连接来发送请求、获取响应、获取观察事件(watch events)以及发送心跳。如果TCP连接中断,客户端将连接到另一个server。

ZooKeeper是有序的。ZooKeeper给每次更新都贴上一个数字,这个数字反映了所有ZooKeeper事务的顺序。后续操作可以使用这个顺序来实现高级抽象,例如同步原语。

ZooKeeper速度很快,特别是在"以读为主"的工作负载中尤其快速。ZooKeeper应用程序可用在数千台机器上运行,在多读少写(比率在10:1左右)的环境中表现最好。

数据模型和有层次的名称空间

ZooKeeper提供的名称空间非常类似于标准文件系统。名称是由斜线(/)分隔的路径元素序列。在ZooKeeper名称空间中的每一个节点都是通过一条路径来标识的。

节点和临时节点

与标准文件系统不同的是,ZooKeeper名称空间中的每个节点(路径)都可以有与之关联的数据,子节点也如此(译注:即节点的路径自身携带数据)。这就像是一个既文件也目录的文件系统。(ZooKeeper的目的是存储协调数据:状态信息、配置、位置信息等,所以每个节点存储的数据通常都很小,一般都是kb级别的)。我们使用术语znode来明确说明我们正在讨论ZooKeeper数据节点。

znode维护一个包含数据更改版本号、ACL更改版本号和时间戳版本号的stat结构,以便能够做缓存验证和协调更新。每当znode的数据发生变化,版本号就会增加。例如,客户端每次检索数据的同时,也会接收数据的版本信息。

名称空间中,每个znode上存储的数据的读、写操作都是原子性的。读操作会获取与znode关联的所有数据,写操作会替换所有数据。每个节点都有一个访问控制列表(ACL),限制谁可以做什么。

ZooKeeper也有临时节点(ephemeral nodes)的概念。只要创建这些znode的会话(session)是活动的,这些znode就存在。当会话结束时,znode被删除。当您想要实现[tbd]时,临时节点非常有用。

协调更新和watch

ZooKeeper支持观察(watch)的概念。客户端可以在znode上设置一个watch。当znode更改时,将触发并删除一个watch。当watch被触发时,客户端会收到一个通知znode已更改的数据包。如果客户端和ZooKeeper server之间的TCP连接中断了,客户端将收到本地通知。这些可用于[tbd]。

ZooKeeper的保证

ZooKeeper快速又简单。但由于它的目标是作为构建更复杂服务(如同步)的基础,所以它要实现一些保证。包括:

  • 序列的一致性:(Sequential Consistency)来自客户端的更新将按照发送的顺序进行应用。
  • 原子性:(Atomicity)更新要么成功,要么失败。没有部分成功、失败的结果。
  • 单系统映像:(Single System Image)无论连接到ZooKeeper中的哪个server,客户端都将看到相同的服务视图。
  • 可靠性:(Reliability)一旦应用了更新,它将一直持续到有客户端对它做了覆盖更新。
  • 时效性:(Timeliness)保证客户端看到的视图在一定的时间范围内是最新的。

更多信息,以及如何使用它们,请参见[tbd]。

Simple API

ZooKeeper的一个设计目标是提供非常简单的编程接口。因此,它只支持以下几个操作:

  1. create:在树中的某个位置创建一个节点。
  2. delete:删除一个节点。
  3. exists:测试一个节点是否存在。
  4. get data:读取节点数据。
  5. set data:向节点中写入数据。
  6. get children:检索某节点的子节点列表。
  7. sync:等待要传播的数据。

更深入内容,以及如何使用它们实现更高级别的操作,请参阅[tbd]。

Implementation

下图显示了ZooKeeper服务的高层组件。除了request processor,构成ZooKeeper Service的每个server都复制自己的每个组件副本。

replicated database是包含整个数据树(data tree)的内存数据库。每次发起的更新都会将其记录到磁盘中的日志,以便以后能够进行恢复(recovery),在更新真正应用到内存数据库之前,还会先将更新序列化到磁盘中。

每个ZooKeeper server都会为客户端提供服务。客户端连接到一个server来提交request。对于read request,每个server会从本地database的副本中提供服务。对于write request,这些请求会更改服务状态,它们由协商协议(agreement procotol)来处理。

作为协商协议(agreement procotol)的一部分,所有来自客户端的write request都被转发到一个称为leader的server上。ZooKeeper中的其它server,都称为follower,它们接收来自leader的消息,并传递那些达成一致的消息。消息层(messaging layer)负责在leader故障时选举新的leader,并剩余的follower和新的leader保持同步。

ZooKeeper使用一个自定义的原子消息传递协议。由于该消息层是原子性的,ZooKeeper可以保证本地副本永远不会出现分歧。当leader收到write request时,它会计算当写操作被执行时系统状态,并将其转换为带有该状态的事务

ZooKeeper的使用

ZooKeeper的编程接口很简单。但有了它,您可以实现更高级的操作,比如同步原语、组成员关系(group membership)、所有权(ownership)等等。更多信息请参阅[tbd]。

ZooKeeper性能

ZooKeeper具有高性能。真的如此吗?雅虎ZooKeeper的开发团队的研究结果已经表明确实如此。(参见下图)。当读操作比写操作更频繁时,ZooKeeper的性能非常高,因为写操作会调用所有节点的状态同步。(协调服务的典型情况就是多读少写)。

注意:在3.2版本中,r/w的性能比3.1版本提高了大约2倍。

翻译:ZooKeeper OverView的更多相关文章

  1. ZooKeeper官方文档翻译——ZooKeeper Overview 3.4.6

    ZooKeeper ZooKeeper: A Distributed Coordination Service for Distributed Applications (针对分布式应用的分布式调度服 ...

  2. 【一】H.264/MPEG-4 Part 10 White Paper 翻译之 Overview of H.264

    翻译版权所有,转载请注明出处~ xzrch@2018.09.14 ------------------------------------------------------------------- ...

  3. 翻译——1_Project Overview, Data Wrangling and Exploratory Analysis-checkpoint

    为提高提高大学能源效率进行建筑能源需求预测 本文翻译哈佛大学的能源分析和预测报告,这是原文 暂无数据源,个人认为学习分析方法就足够 内容: 项目概述 了解数据 探索性分析 使用不同的机器学习方法进行预 ...

  4. 翻译qmake文档(一) qmake指南和概述

    翻译qmake文档 目录 英文文档连接: http://qt-project.org/doc/qt-5/qmake-manual.html http://qt-project.org/doc/qt-5 ...

  5. [ZooKeeper] 1 基本概念

    ZooKeeper: A Distributed Coordination Service for Distributed Applications ZooKeeper is a distribute ...

  6. ViewPager 详解(二)---详解四大函数

    前言:上篇中我们讲解了如何快速实现了一个滑动页面,但问题在于,PageAdapter必须要重写的四个函数,它们都各有什么意义,在上节的函数内部为什么要这么实现,下面我们就结合Android的API说明 ...

  7. kafka Detailed Replication Design V3

    参考,https://cwiki.apache.org/confluence/display/KAFKA/kafka+Detailed+Replication+Design+V3 Major chan ...

  8. 【原】Zookeeper 概述 + 官网 Overview 翻译

    分布式应用 分布式应用 distributed application可以在给定时间(同时)在网络中的多个系统上运行,通过协调它们以快速有效的方式完成特定任务. (a), (b): a distrib ...

  9. 老李分享: Oracle Performance Tuning Overview 翻译

    老李分享: Oracle Performance Tuning Overview 翻译   poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工 ...

随机推荐

  1. Shell的特殊变量

    在Shell里存在的一些特殊变量:$!.$@.$#.$$.$*.$0.$n.$_.$? [root@shell ~]# sh shell.sh aaa bbb ccc$0 获取当前执行的shell脚本 ...

  2. servlet概述(作业11)

    1.什么是servlet. Servlet(Server Applet)是Java Servlet的简称,称为小服务程序或服务连接器,用Java编写的服务器端程序,具有独立于平台和协议的特性,主要功能 ...

  3. 防范 SQL 注入攻击

     防范 SQL 注入攻击 我们执行的 SQL语句中包含变量,执行的时候会直接把变量内容替换进去.而如果攻击者在输入框中输入一些危险的字符(通常包含 SQL 注释符 --,以及其他预先精心设置的内容), ...

  4. 初识大数据(三. Hadoop与MPP数据仓库)

    MPP代表大规模并行处理,这是网格计算中所有单独节点参与协调计算的方法. 是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果. MPP DBMS是 ...

  5. 支持Linux,嗅探和注入功能的网卡

    支持的WiFi USB 以下是已知可以很好地支持Linux,嗅探和注入功能,外部天线(可以替换)和强大的TX功率以及良好的RX灵敏度的Wifi卡的列表 TP-LINK TL-WN722N(仅限卷1) ...

  6. verilog HDL-参数型数据对像 与‘define

    参数新数据对象是用来定义常量的,它可以提升verilog hdl代码的可读性和维护性. verilog hdl支持参数有两种,普通参数和局部参数.普通参数在模块例化时可以从新赋值,局部参数在模块例化时 ...

  7. Il laser che è chiaramente visibile

    Prima di quel tempo ho ottenuto questo potente puntatore laser 500mW, non so davvero come questo dis ...

  8. tcp/ip 三次握手和4次挥手

    TCP连接两个端口,谁也发起请求,谁就是client端A,另外一个接受请求的server端B.第一次握手:A向B发一个链接请求,带一个seq = x,SYN= x. 第二次握手:B收到链接请求之后向A ...

  9. IntelliJ IDEA 使用前常用设置

    0.设置位置 以下设置基于IntelliJ IDEA 2018.3.2 版本. IDEA 的设置一般都在 File 下的 Settings... 里进行设置的. 1.设置字体字号行间距 2.设置背景图 ...

  10. Kali学习笔记27:Burpsuite(上)

    文章的格式也许不是很好看,也没有什么合理的顺序 完全是想到什么写一些什么,但各个方面都涵盖到了 能耐下心看的朋友欢迎一起学习,大牛和杠精们请绕道 如果我只能选择一款工具进行Web渗透,那么一定就是Bu ...