(1)在分布式系统中,对于某个节点是否还“活着”的探测,通常是设定一个时间的阀值,然后根据接收到的“心跳”信息的间隔,来判定这个节点是否还活着,然后返回一个bool值;

但这种做法很容易造成误判:因为你不能确切得知道 究竟是真的是节点挂掉了,还是网络比较“慢”;

(2)cassandra里面采用一种可以自适应自调整的故障探测的方法,主要实现原理是:

用一个滑动窗口记录下 接收到的 一个节点的心跳信息的时间间隔,在cassandra中,窗口的size设置为1000;然后根据窗口中的数据来生成指数分布,从而估计下一次心跳在当前时刻应该到来的概率;

虽然 原论文中建议这些时间间隔服从 高斯分布,但指数分布是一个更好的选择:关于 指数分布 与 泊松分布(http://www.ruanyifeng.com/blog/2015/06/poisson-distribution.html,这里有阮一峰的一篇博文写的挺清楚的);

指数分布表示的就是时间发生的间隔的概率,公式如下:

P(x <= t) = 1 - e^-Lt  ,其中L表示事件发生的频率;其极大似然估计就是 1/mean(平均数)

(3)那么cassandra中的具体做法是怎样的?

我门假设 P_later 表示 endpoint B 挂掉的概率,t参数表示自从上一次收到B的heartbeat信息以来,时间已经过去了多久;那么

P_later(t) = 1 - F(t)

其中,F(t)是时间间隔事件发生的累计分布函数,很容易理解,F(t)表示上次事件(接收到endpoint B的heartbeat消息)开始到t时间之间应该接到endpoint B的heartbeat消息的概率,那么没有接收到就用1减去;因为没有接收到我们可能就认为B挂掉了;

带入指数分布的公式,所以就有:

P_later(t) = 1 - (1 - e^(-Lt))

其中L的极大似然估计是1/均值,就是滑动窗口中记录的所有时间间隔的均值;

P_later(t) = 1 - (1 - e^(-t/mean))

原论文到这里就截止了,cassandra接着的做法如下:

P_later(t) = e^(-t/mean)

然后 phi的计算

phi(t) = -log10(P_later(t))

接着化简

phi(t) = -log10(e^(-t/mean))

phi(t) = -log(e^(-t/mean)) / log(10)

phi(t) = (t/mean) / log(10)

将log(10)带进来,约等于

phi(t) = 0.4342945 * t/mean

这确实要比计算如下的方式简单多了:

(-1) * MATH.log10Math.pow(Math.e, ((-1) * (t)/mean)))

cassandra中认为 phi(t) 大于 8时,就认为节点挂掉了。

对于选择phi 等于 8这个值,我们反过来计算一下概率,如果phi(t) 为 8,那么P_later(t)需要为10^-8,说明这个情况是一个很小概率的情况,这样而来,误判的概率就很小了。

参考论文:

http://files.cnblogs.com/files/yuhan-TB/ThePhiAccrualFailureDetector.pdf

cassandra中对节点失败与否的探测方法, the Phi accrual Failure Dector,附论文的更多相关文章

  1. 【Gradle】配置中引用的jar包版本后面自动加冒号导致引入jar包失败的问题/gradle中引用jar包版本不一致的问题/gradle中引用jar失败的问题 解决方法

    idea中 gradle中 引用jar包,版本后面默认加:的问题 gradle中引用jar包版本不一致的问题 gradle中引用jar失败的问题 如上题目所示,三个问题其实都是同一样的简单又恶心,因为 ...

  2. XML中文本节点存储任意字符的方法

    XML xml是一种可扩展标签语言, 为众多浏览器支持解析, ajax更是利用xml来完成服务器和客户端之前的通信. xml基本元素为 <label>xxx</label>, ...

  3. hanlp在Python环境中的安装失败后的解决方法

    Hanlp是由一系列模型与算法组成的javag工具包,目标是普及自然语言处理再生环境中的应用.有很多人在安装hanlp的时候会遇到安装失败的情况,下面就是某大神的分享的在python环境中安装失败的解 ...

  4. Web.config中appSettings节点值两种读取方法

        <appSettings>    <add key="ClientPort" value="5252"/>   <add ...

  5. Cassandra中的数据一致性

       Cassandra中数据一致性指的是数据行在各个复制节点(replicas)上的更新和同步程度.通过提供tunable consistency,Cassandra扩展了eventual cons ...

  6. Cassandra 备份 - 1 - 节点镜像恢复

    之前比较关注如何使用Cassandra,但是真正想大规模使用前提还是需要搞清楚备份机制,确保数据安全. 本文主要内容来自文档 "Cassandra2.2"的翻译.最后部分为真实操作 ...

  7. cassandra中的ACID,与RDBMS中的事务有何不同?

    Cassandra中的ACID标准 Apache Cassandra不遵循具有回滚或锁定机制的ACID(原子性,一致性,隔离性,持久性)事务,而是提供原子,隔离和持久的事务,并具有最终和可调的一致性, ...

  8. web.config中sessionState节点的配置方案

    web.config中sessionState节点的配置方案 web.config关于sessionState节点的配置方案,sessionState有五种模式:Custom,off,inProc,S ...

  9. Cassandra配置多节点集群以及使用雅虎YCSB压测Cassandra 3.11

    这几天在搭Cassandra集群以及对Cassandra的性能测试,步骤还挺多,记录一下. 关于Caaandra在服务器上配置多节点集群,可以参考一下文章: http://blog.csdn.net/ ...

随机推荐

  1. Python—模块

    一.模块 模块,是用一堆代码实现了某个功能的代码集合,模块分为三种:自定义模块(自己定义).内置模块(python自带).开源模块 导入模块 (1).导入一个py文件,解释器解释该py文件 (2).导 ...

  2. 使用IOS7原生API进行二维码条形码的扫描

    使用IOS7原生API进行二维码条形码的扫描 IOS7之前,开发者进行扫码编程时,一般会借助第三方库.常用的是ZBarSDK,IOS7之后,系统的AVMetadataObject类中,为我们提供了解析 ...

  3. laravel框架总结(七) -- 数据库操作

      1.使用DB门面进行基本操作 一旦你设置好了数据库连接,就可以使用 DB facade 来进行查找.DB facade 提供每个类型的查找方法:select.update.insert.delet ...

  4. centos6.6安装配置jboss7.1.1

    Centos6.6下安装配置Jboss7.1.1 在了解jboss牛逼特性之后,我决定安装下jboss7.1.1试试 下面是安装包百度云盘链接: http://pan.baidu.com/s/1o6O ...

  5. 关于无法把程序(Adobe Fireworks CS5)添加到打开方式的解决办法

    关于无法把程序(Adobe Fireworks CS5)添加到打开方式的解决办法 最近换了新版的Adobe Fireworks CS5,发现打开图片文件时在右键“打开方式”里仍然是以前的Firewor ...

  6. KNN算法与Kd树

    最近邻法和k-近邻法 下面图片中只有三种豆,有三个豆是未知的种类,如何判定他们的种类? 提供一种思路,即:未知的豆离哪种豆最近就认为未知豆和该豆是同一种类.由此,我们引出最近邻算法的定义:为了判定未知 ...

  7. 使用VB6制作RTD函数

    以前模仿大神在vs里使用c#实现RTD函数功能.(真是很生僻的东东啊)C#制作RTD参考:大神博客跳转.最近想VB里能不能做?就试着做了做,好像基本成了,整套代码有些毛病,勉强能算个样子,暂时不打算再 ...

  8. 深入浅出设计模式——建造者模式(Builder Pattern)

    模式动机无论是在现实世界中还是在软件系统中,都存在一些复杂的对象,它们拥有多个组成部分,如汽车,它包括车轮.方向盘.发送机等各种部件.而对于大多数用户而言,无须知道这些部件的装配细节,也几乎不会使用单 ...

  9. JavaScript中的Math对象

    Math对象中提供的计算功能执行起来比你在代码中写的js要快得多,这是它的一个很好的优点.   属性: 属性 说明 Math.E 即常量e的值 Math.LN10 ln10 Math.LN2 ln2 ...

  10. linux配置ssh互信

    公钥认证的基本思想: 对信息的加密和解密采用不同的key,这对key分别称作private key和public key,其中,public key存放在欲登录的服务器上,而private key为特 ...