情景:

当节点群互连时,会通过心跳包检查所连接节点是不是连接正常,这个心跳时间默认为60s,可以通过

net_kernel:set_net_ticktime(600).

来重设这个时间值,怎么测试?

每次我把其中一个节点kill掉后,与之想连的节点就会立即收到nodedown消息,根本无法测试这个ticktime是不是生效。

原因:

在Erl Doc里面关于节点互连时有一个关于节点间心跳检查的片段:

http://www.erlang.org/doc/man/kernel_app.html

net_ticktime = TickTime

Specifies the net_kernel tick time. TickTime is given in seconds. Once every TickTime/4 second, all connected nodes are ticked (if anything else has been written to a node) and if nothing has been received from another node within the last four (4) tick times that node is considered to be down. This ensures that nodes which are not responding, for reasons such as hardware errors, are considered to be down.

The time T, in which a node that is not responding is detected, is calculated as: MinT < T < MaxT where:

         MinT = TickTime - TickTime / 4
MaxT = TickTime + TickTime / 4

TickTime is by default 60 (seconds). Thus, 45 < T < 75 seconds.

Note: All communicating nodes should have the same TickTime value specified.

Note: Normally, a terminating node is detected immediately.

从文档中可以看出,节点会在每TickTime/4 秒检查一下连接的节点是不是正常,如果连续4次没有收到(TickTime时间内)没有收到心跳消息,就会认为这个节点挂了,

可是如果节点是被终结掉(terminating node),其它节点会马上收到down通知.

为了测试这个心跳时间,必须要对Erlang节点互连的基本epmd和net_kernel的工作原理有所了解【Google真是万能!】。


Erlang节点使用TCP连接通讯,当开启一个新节点,它会随机选择一个端口(大约在52300左右),在EPMD(Erlang Port Mapper Daemo)注册,EPMD默认使用4369端口对外连接,

结论:

1. epmd就是Erlang里的port mapper,每台计算机上启动一个该进程,它记录/交换集群上的每个进程的端口信息:

2. 每个节点起动时会向本地的EPMD注册一个可用端口,用于收信息;

3. 当A节点尝试与B节点建立双向通信时,首先向本地的EPMD进程查询B节点信息(第一次连接当然找不到啦);

4. 找不到就会向B节点的EPMD查询B节点上可收消息的PortB,同时把A节点上的PortA携带给B节点;

5. A节点随机一个可用端口PortA1---->PortB; B节点随机一个PortB1----->PortA;

6.双向通信连接建立成功。

The following figure shows three nodes N1, N2, and N3 with their incoming connection TCP port 52383, 52236, 52275. Communication is ongoing between N1 and N2, N1 and N2 where the nodes have picked random ports R1, R2, R3, and R4.

那我们来看看3个节点相连是什么情况?

节点N1,N2,N3,分别注册52383, 52236, 52275用来建立接收的TCP连接,R1,R2,R3,R4就是随机生成的端口用来发送的TCP连接。

Erlang有很多方法来检测节点是不是可连接,比如我们上面说的节点启动时自动设置的心跳Net-Ticks(双向就用Links,单向监测就用Monitors),
1> net_kernel:monitor_nodes(true, [{node_type, visible}, nodedown_reason]).
可能失败的原因:
%%connection_setup_failed
%%no_network
%%net_kernel_terminated
%%shutdown
%%connection_closed
%%disconnect
%%net_tick_timeout
%%send_net_tick_fail
%%edget_status_failed
接下来的好戏:怎么制造出这些错误?

1 没有效果的方式:

 1.1. 改变节点cookie.
     众所周知:2个节点要连接在一起,必须要知道对方的cookie,那么,我们在连接已建立后,手动把cookie改一下:
1> erlang:set_cookie(node(), zhongwencool).
   结果非常有趣:居然对运行中已连接的节点没有任何影响.
1.2.阻塞或杀死EPMD进程.
   结果和1一样,对已连接的节点没有任何影响,这个是因为EPMD只用于连接建立之前,建立完成后就没EPMD的事啦.

2. 破坏性的方式:

2.1 使VM Crash掉:

直接在操作系统里面用

$ kill - $PID
或者使用:
1> os:cmd("kill -9 " ++ os:getpid()).
结果是对方节点马上收到了
{connection_closed}
     2.2 正常kill或停止 VM:
     如果你是在Erlang shell里面,你可以使用C-c C-c来结束VM.
    也可以在调用:
1> erlang:halt().
或者更常见的:
1> init:stop().
但是两者了结果都是:马上收到:
{connection_closed}

3. 临时性的方式:

3.1 可以在终端使用C-z,或:

1> os:cmd("kill -STOP " ++ os:getpid()).

使VM机器Halt住。

终于我们在60s后收到了:
{net_tick_timeout}

终于看到了一个我们想要的结果,但是好像这个节点也无法再继续用了……

3.2 把 net_kernel进程给kill掉:

1> timer:kill_after(0, whereis(net_kernel)).
结果还是马上收到:
{connection_closed}

4. 阻塞端口:

使用防火墙规则阻塞端口:

$ erl -name 'n1@127.0.1.1'
$ erl -name 'n2@127.0.1.2'

这下上面的2个节点都使用不用的network interface

$ sudo iptables -I INPUT --destination 127.0.1.1 -j DROP
$ sudo iptables -I INPUT --source 127.0.1.1 -j DROP $ sudo iptables -S
-P INPUT ACCEPT
-P FORWARD ACCEPT
-P OUTPUT ACCEPT
-A INPUT -s 127.0.1.1/ -j DROP
-A INPUT -d 127.0.1.1/ -j DROP :
: $ sudo iptables -F

结果还是60s后收到一个:

{net_tick_timeout}

最终结果:

如果想测试nodedown消息,最好使用防火墙设置端口来模拟。

参考阅读:

1. http://blog.yufeng.info/archives/2779

2. http://www.cnblogs.com/me-sa/p/erlang-epmd.html

心中一万匹马在奔腾啊……………………………….

[Erlang14]怎样模拟节点互连后的各种失败情况?的更多相关文章

  1. Consul的一个更新:服务端节点故障后重连

    研究了一段时间Consul,想写个攻略来着,但太赖了而且表达能力非正常人...今天发现HashiCorp果然接纳大众意见改了点东西.. 场景是: 假如Consul集群内有三个Server Node 时 ...

  2. 探索javascript----获得节点计算后样式

    节点计算后样式是一个属性与属性值的值对对象: IE:    node.currentStyle; 非IE: window.getComputedStyle(node,null); 兼容方式: func ...

  3. rac 11g_第二个节点重启后无法启动实例:磁盘组dismount问题

    原创作品,出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明以下出处,否则追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlo ...

  4. es故障节点恢复后加入集群导致删除索引重新出现

    es的每个shard下的文件都可以看做一个完整的lucene文件,shard数据目录下的segment文件包含了索引的分片数量,副本数量.es shard可以恢复,就是因为每个shard都包含了一份数 ...

  5. C#TreeView节点选中后失去焦点时改变节点背景色

    C#TreeView节点选中后失去焦点时改变节点背景色 在使用TreeView控件时候,单击一个节点,当鼠标聚焦到别的地方的时候,之前点击的这个节点就看不清楚了 举例截图 单击后           ...

  6. 【mysql】mysql增加version字段实现乐观锁,实现高并发下的订单库存的并发控制,通过开启多线程同时处理模拟多个请求同时到达的情况 + 同一事务中使用多个乐观锁的情况处理

    mysql增加version字段实现乐观锁,实现高并发下的订单库存的并发控制,通过开启多线程同时处理模拟多个请求同时到达的情况 ==================================== ...

  7. 【BUG】插入或者更新超过限制后写入数据库失败

      Error Code: 1064 - You have an error in your SQL syntax; check the manual that corresponds to your ...

  8. 如何处理导出的csv无法查看身份证后三位的情况?

    如何处理导出的csv无法查看身份证后三位的情况? 原因:excel中如果是常规格式无法显示那么多位数,改成文本格式就可以. 简单步骤,导入数据------>选择数据来源------>选择编 ...

  9. Netty:Channel 建立后消息发送失败

    1. 问题现象 Channel 建立后消息发送失败: ChannelFuture future = DeviceManager.getBootstrap().connect(); deviceChan ...

随机推荐

  1. 使用Spring MVC创建 REST API--2

    1.提供资源之外的其他内容 @ResponseBody提供了一种很有用的方式,能够将控制器返回的Java对象转换为发送到客户端的资源表述.实际上,将资源表述发送给客户端只是整个过程的一部分.一个好的R ...

  2. sysbench基准测试工具使用

    1.源码编译安装 源码下载地址(目前有0.4/0.5/1.0三个分支版本):https://github.com/akopytov/sysbench 编译安装: unzip sysbench-1.0. ...

  3. angularjs之向下一个页面传参

    原理: 1.在a标签跳转时,连接后增加一个参数值 2.在路由中接收 3.在控制器中接收 实现: 1.<a href="#/list/{{val.id}}"> 2.在js ...

  4. RocketMQ初探(二)之RocketMQ3.26版本搭建(含简单Demo测试案例)

    作为一名程序猿,要敢于直面各种现实,脾气要好,心态要棒,纵使Bug虐我千百遍,我待它如初恋,方法也有千万种,一条路不行,换条路走走,方向对了,只要前行,总会上了罗马的道. Apache4.x最新版本既 ...

  5. Linux运维跳槽必备的40道面试精华题

    过一次年,结婚.存款.父母养老,一系列向钱看的事都在碾压我们本来还挺简单的神经,但难过没有出路,唯有找到好的方法和事业方向,才能实现一步一个脚印的逆袭. 下面是一名资深Linux运维求职数十家公司总结 ...

  6. LNMP 参数调优 ( 无注释 )

    简介: PHP FastCGI 优点 1.PHP 脚本运行速度更快.PHP 解释程序被载入内存而不用每次需要时从存储器读取,极大的提升了依靠脚本运行站点的性能. 2.需要使用的系统资源更少.由于服务器 ...

  7. 10+ 最佳的 Node.js 教程和实例

    如果你正在找Node.js的学习资料及指南,那么请继续(阅读),我们的教程将会覆盖即时聊天应用.API服务编写.投票问卷应用.人物投票APP.社交授权. Node.js on Raspberry Pi ...

  8. python 中类的初始化过程

    首先元类中的__new__被调用 所有使用该元类的类都会调用一次,不管其有没有初始化,所以元类__new__的作用是修改/验证类的定义 返回的是一个元类的实例,即一个类的定义 元类的__init__由 ...

  9. Opencv 图像矩

    #include <iostream>#include <opencv2/opencv.hpp> using namespace std;using namespace cv; ...

  10. 825. Friends Of Appropriate Ages有效的好友请求的数量

    [抄题]: Some people will make friend requests. The list of their ages is given and ages[i] is the age ...