Redis 复制、Sentinel的搭建和原理说明

 转自:http://www.cnblogs.com/zhoujinyi/p/5570024.html.

背景:

Redis-Sentinel是Redis官方推荐的高可用性(HA)解决方案,当用Redis做Master-slave的高可用方案时,假如master宕机了,Redis本身(包括它的很多客户端)都没有实现自动进行主备切换,而Redis-sentinel本身也是一个独立运行的进程,它能监控多个master-slave集群,发现master宕机后能进行自动切换,更多的信息见前一篇说明。它的主要功能有以下几点:

  1. 1,不时地监控redis是否按照预期良好地运行;
  2. 2,如果发现某个redis节点运行出现状况,能够通知另外一个进程(例如它的客户端);
  3. 3,能够进行自动切换。当一个master节点不可用时,能够选举出master的多个slave(如果有超过一个slave的话)中的一个来作为新的master,其它的slave节点会将它所追随的master的地址改为被提升为masterslave的新地址。 

Redis-Replication

1)搭建

复制的配置很简单,就一个参数:

  1. slaveof <主数据库IP> <端口>

可以添加在配置文件里,也可以在命令行中执行。如主数据库IP是192.168.200.25 端口是6379:(配置多台从数据库的方法也一样)

  1. slaveof 192.168.200.25 6379

注意:通过命令行进行的复制,在主从断开或则主从重启之后复制信息会丢失,即不能保证持久复制,需要再次执行slaveof。但是在配置文件里写死slaveof不会有该问题。默认情况下从库是只读的,不能进行修改,需要修改需要设置配置文件中的slave-read-only为no。在命令行里执行slaveof no one可以让一个从库变成主库。

2)原理(执行步骤)

①从数据库向主数据库发送sync命令。

②主数据库接收sync命令后,执行BGSAVE命令(保存快照),创建一个RDB文件,在创建RDB文件期间的命令将保存在缓冲区中。

③当主数据库执行完BGSAVE时,会向从数据库发送RDB文件,而从数据库会接收并载入该文件。

④主数据库将缓冲区的所有写命令发给从服务器执行。

⑤以上处理完之后,之后主数据库每执行一个写命令,都会将被执行的写命令发送给从数据库。

注意:在Redis2.8之前,主从断线或则重启之后再重连接,都需要做一次完整的sync操作(5步骤),即使断线期间只有几条的更新操作或则是没有操作,导致系统资源极度浪费。Redis2.8之后,会用一个psync来替换sync,不会进行完成的sync操作,只需要同步断线期间的记录。相关参数:repl-backlog-size、repl-backlog-ttl

大致的示意图如下:

3)相关的参数,注释掉的参数都是使用默认值。

  1. ################################# REPLICATION #################################
  2. #复制选项,slave复制对应的master。
  3. # slaveof <masterip> <masterport>
  4.  
  5. #如果master设置了requirepass,那么slave要连上master,需要有master的密码才行。masterauth就是用来配置master的密码,这样可以在连上master后进行认证。
  6. # masterauth <master-password>

  7. #当从库同主机失去连接或者复制正在进行,从机库有两种运行方式:1) 如果slave-serve-stale-data设置为yes(默认设置),从库会继续响应客户端的请求。2) 如果slave-serve-stale-data设置为no,除去INFO和SLAVOF命令之外的任何请求都会返回一个错误”SYNC with master in progress”。
  8. slave-serve-stale-data yes
  9. #作为从服务器,默认情况下是只读的(yes),可以修改成NO,用于写(不建议)。
  10. slave-read-only yes
  11. #是否使用socket方式复制数据。目前redis复制提供两种方式,disk和socket。如果新的slave连上来或者重连的slave无法部分同步,就会执行全量同步,master会生成rdb文件。有2种方式:disk方式是master创建一个新的进程把rdb文件保存到磁盘,再把磁盘上的rdb文件传递给slave。socket是master创建一个新的进程,直接把rdb文件以socket的方式发给slave。disk方式的时候,当一个rdb保存的过程中,多个slave都能共享这个rdb文件。socket的方式就的一个个slave顺序复制。在磁盘速度缓慢,网速快的情况下推荐用socket方式。
  12. repl-diskless-sync no
  13. #diskless复制的延迟时间,防止设置为0。一旦复制开始,节点不会再接收新slave的复制请求直到下一个rdb传输。所以最好等待一段时间,等更多的slave连上来。
  14. repl-diskless-sync-delay 5

  15. #slave根据指定的时间间隔向服务器发送ping请求。时间间隔可以通过 repl_ping_slave_period 来设置,默认10秒。
  16. # repl-ping-slave-period 10
  17.  
  18. #复制连接超时时间。master和slave都有超时时间的设置。master检测到slave上次发送的时间超过repl-timeout,即认为slave离线,清除该slave信息。slave检测到上次和master交互的时间超过repl-timeout,则认为master离线。需要注意的是repl-timeout需要设置一个比repl-ping-slave-period更大的值,不然会经常检测到超时。
  19. # repl-timeout 60
  20.  
  21. #是否禁止复制tcp链接的tcp nodelay参数,可传递yes或者no。默认是no,即使用tcp nodelay。如果master设置了yes来禁止tcp nodelay设置,在把数据复制给slave的时候,会减少包的数量和更小的网络带宽。但是这也可能带来数据的延迟。默认我们推荐更小的延迟,但是在数据量传输很大的场景下,建议选择yes。
  22. repl-disable-tcp-nodelay no
  23. #复制缓冲区大小,这是一个环形复制缓冲区,用来保存最新复制的命令。这样在slave离线的时候,不需要完全复制master的数据,如果可以执行部分同步,只需要把缓冲区的部分数据复制给slave,就能恢复正常复制状态。缓冲区的大小越大,slave离线的时间可以更长,复制缓冲区只有在有slave连接的时候才分配内存。没有slave的一段时间,内存会被释放出来,默认1m。
  24. # repl-backlog-size 5mb
  25. #master没有slave一段时间会释放复制缓冲区的内存,repl-backlog-ttl用来设置该时间长度。单位为秒。
  26. # repl-backlog-ttl 3600
  27.  
  28. #当master不可用,Sentinel会根据slave的优先级选举一个master。最低的优先级的slave,当选master。而配置成0,永远不会被选举。
  29. slave-priority 100

  30. #redis提供了可以让master停止写入的方式,如果配置了min-slaves-to-write,健康的slave的个数小于N,mater就禁止写入。master最少得有多少个健康的slave存活才能执行写命令。这个配置虽然不能保证N个slave都一定能接收到master的写操作,但是能避免没有足够健康的slave的时候,master不能写入来避免数据丢失。设置为0是关闭该功能。
  31. # min-slaves-to-write 3
  32.  
  33. #延迟小于min-slaves-max-lag秒的slave才认为是健康的slave。
  34. # min-slaves-max-lag 10

4)总结

Redis目前的复制是异步的,只保证最终一致性,而不是强一致性(主从数据库的更新还是分先后,先主后从)。要是一致性要求高的应用,目前还是读写都在主库上去。

Redis-Sentinel:需要对redis和sentinel的配置文件有rewrite的权限。

1)搭建:(环境:redis服务3个实例10086、10087、10088;sentinel服务3个监控:20086、20087、20088)

sentinel是一个"监视器",根据被监视实例的身份和状态来判断该执行何种操作。通过给定的配置文件来发现主服务器的,再通过向主服务器发送的info信息来发现该主服务器的从服务器。Sentinel 实际上就是一个运行在 Sentienl 模式下的 Redis 服务器,所以我们同样可以使用以下命令来启动一个 Sentinel实例。运行方式如下:

  1. redis-sentinel /path/to/sentinel.conf

参数配置文件:

  1. port 20086 #默认端口26379
  2. dir "/tmp"
  3. logfile "/var/log/redis/sentinel_20086.log"
  4. daemonize yes
  5.  
  6. #格式:sentinel <option_name> <master_name> <option_value>;#该行的意思是:监控的master的名字叫做T1(自定义),地址为127.0.0.1:10086,行尾最后的一个2代表在sentinel集群中,多少个sentinel认为masters死了,才能真正认为该master不可用了。
  7. sentinel monitor T1 127.0.0.1 10086 2

  8. #sentinel会向master发送心跳PING来确认master是否存活,如果master在“一定时间范围”内不回应PONG 或者是回复了一个错误消息,那么这个sentinel会主观地(单方面地)认为这个master已经不可用了(subjectively down, 也简称为SDOWN)。而这个down-after-milliseconds就是用来指定这个“一定时间范围”的,单位是毫秒,默认30秒。
  9. sentinel down-after-milliseconds T1 15000

  10. #failover过期时间,当failover开始后,在此时间内仍然没有触发任何failover操作,当前sentinel将会认为此次failoer失败。默认180秒,即3分钟。
  11. sentinel failover-timeout T1 120000

  12. #在发生failover主备切换时,这个选项指定了最多可以有多少个slave同时对新的master进行同步,这个数字越小,完成failover所需的时间就越长,但是如果这个数字越大,就意味着越多的slave因为replication而不可用。可以通过将这个值设为 1 来保证每次只有一个slave处于不能处理命令请求的状态。
  13. sentinel parallel-syncs T1 1

  14. #sentinel 连接设置了密码的主和从
    #sentinel auth-pass <master_name> xxxxx
  15.  
  16. #发生切换之后执行的一个自定义脚本:如发邮件、vip切换等
    ##sentinel notification-script <master-name> <script-path> ##不会执行,疑问?
    #sentinel client-reconfig-script <master-name> <script-path> ##这个会执行

注意:要是参数配置的是默认值,在sentinel运行时该参数会在配置文件文件里被删除掉,直接不显示。也可以在运行时用命令SENTINEL SET command动态修改,后面说明。

很显然,只使用单个sentinel进程来监控redis集群是不可靠的,当sentinel进程宕掉后(sentinel本身也有单点问题,single-point-of-failure)整个集群系统将无法按照预期的方式运行。所以有必要将sentinel集群,这样有几个好处:

  1. 1:即使有一些sentinel进程宕掉了,依然可以进行redis集群的主备切换;
  2. 2:如果只有一个sentinel进程,如果这个进程运行出错,或者是网络堵塞,那么将无法实现redis集群的主备切换(单点问题);
  3. 3:如果有多个sentinelredis的客户端可以随意地连接任意一个sentinel来获得关于redis集群中的信息。

本文开启sentinel集群用了3个实例,保证各个端口和目录不一致,配置文件如下:

sentinel_20086.conf :

  1. port 20086
  2.  
  3. dir "/var/lib/sentinel_20086"
  4.  
  5. logfile "/var/log/redis/sentinel_20086.log"
  6.  
  7. daemonize yes
  8.  
  9. sentinel monitor T1 127.0.0.1 10086 2
  10.  
  11. sentinel down-after-milliseconds T1 15000
  12.  
  13. sentinel failover-timeout T1 120000
  14.  
  15. sentinel parallel-syncs T1 1
  16.  
  17. #发生切换之后执行的一个自定义脚本:如发邮件、vip切换等
  18. #sentinel notification-script <master-name> <script-path>
  1. port 20086
  2.  
  3. dir "/var/lib/sentinel_20086"
  4.  
  5. logfile "/var/log/redis/sentinel_20086.log"
  6.  
  7. daemonize yes
  8.  
  9. sentinel monitor T1 127.0.0.1 10086 2
  10.  
  11. sentinel down-after-milliseconds T1 15000
  12.  
  13. sentinel failover-timeout T1 120000
  14.  
  15. sentinel parallel-syncs T1 1
  16.  
  17. #发生切换之后执行的一个自定义脚本:如发邮件、vip切换等
  18. #sentinel notification-script <master-name> <script-path>

sentinel_20087.conf :

  1. port 20087
  2.  
  3. dir "/var/lib/sentinel_20087"
  4.  
  5. logfile "/var/log/redis/sentinel_20087.log"
  6.  
  7. daemonize yes
  8.  
  9. sentinel monitor T1 127.0.0.1 10086 2
  10.  
  11. sentinel down-after-milliseconds T1 15000
  12.  
  13. sentinel failover-timeout T1 120000
  14.  
  15. sentinel parallel-syncs T1 1
  16.  
  17. #发生切换之后执行的一个自定义脚本:如发邮件、vip切换等
  18. #sentinel notification-script <master-name> <script-path>
  1. port 20087
  2.  
  3. dir "/var/lib/sentinel_20087"
  4.  
  5. logfile "/var/log/redis/sentinel_20087.log"
  6.  
  7. daemonize yes
  8.  
  9. sentinel monitor T1 127.0.0.1 10086 2
  10.  
  11. sentinel down-after-milliseconds T1 15000
  12.  
  13. sentinel failover-timeout T1 120000
  14.  
  15. sentinel parallel-syncs T1 1
  16.  
  17. #发生切换之后执行的一个自定义脚本:如发邮件、vip切换等
  18. #sentinel notification-script <master-name> <script-path>

sentinel_20088.conf :

  1. port 20088
  2.  
  3. dir "/var/lib/sentinel_20086"
  4.  
  5. logfile "/var/log/redis/sentinel_20088.log"
  6.  
  7. daemonize yes
  8.  
  9. sentinel monitor T1 127.0.0.1 10086 2
  10.  
  11. sentinel down-after-milliseconds T1 15000
  12.  
  13. sentinel failover-timeout T1 120000
  14.  
  15. sentinel parallel-syncs T1 1
  16.  
  17. #发生切换之后执行的一个自定义脚本:如发邮件、vip切换等
  18. #sentinel notification-script <master-name> <script-path>
  1. port 20088
  2.  
  3. dir "/var/lib/sentinel_20086"
  4.  
  5. logfile "/var/log/redis/sentinel_20088.log"
  6.  
  7. daemonize yes
  8.  
  9. sentinel monitor T1 127.0.0.1 10086 2
  10.  
  11. sentinel down-after-milliseconds T1 15000
  12.  
  13. sentinel failover-timeout T1 120000
  14.  
  15. sentinel parallel-syncs T1 1
  16.  
  17. #发生切换之后执行的一个自定义脚本:如发邮件、vip切换等
  18. #sentinel notification-script <master-name> <script-path>

疑问:这里的参数 sentinel notification-script <master-name> <script-path>好像切换的时候不会执行,参数sentinel client-reconfig-script<master-name> <script-path>倒是会执行,可以用这个参数来替换上面的参数。

启动sentinel:

  1. root@zhoujinyi:/etc/redis# redis-sentinel /etc/redis/sentinel_20086.conf
  2. root@zhoujinyi:/etc/redis# redis-sentinel /etc/redis/sentinel_20087.conf
  3. root@zhoujinyi:/etc/redis# redis-sentinel /etc/redis/sentinel_20088.conf

注意:当一个master配置为需要密码才能连接时,客户端和slave在连接时都需要提供密码。master通过requirepass设置自身的密码,不提供密码无法连接到这个master。slave通过masterauth来设置访问master时的密码。客户端需要auth提供密码,但是当使用了sentinel时,由于一个master可能会变成一个slave,一个slave也可能会变成master,所以需要同时设置上述两个配置项,并且sentinel需要连接master和slave,需要设置参数:sentinel auth-pass <master_name> xxxxx

启动后各个sentinel的日志信息如下:

  1. 3462:X 08 Jun 18:07:54.820 # Sentinel runid is b44bb512b3b756c97f48aff1dc37b54a30659ee9
  2. 3462:X 08 Jun 18:07:54.820 # +monitor master T1 127.0.0.1 10086 quorum 2 #主加入监控
  3. 3462:X 08 Jun 18:07:54.823 * +slave slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 #检测到一个slave并添加进slave列表
  4. 3462:X 08 Jun 18:07:54.823 * +slave slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086 #检测到一个slave并添加进slave列表
  5. 3462:X 08 Jun 18:07:59.515 * +sentinel sentinel 127.0.0.1:20087 127.0.0.1 20087 @ T1 127.0.0.1 10086 #增加了一个sentinel
  6. 3462:X 08 Jun 18:08:01.820 * +sentinel sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10086 #增加了一个sentinel

关于更多的信息见:

  1. +reset-master <instance details> -- master被重置时.
  2. +slave <instance details> -- 当检测到一个slave并添加进slave列表时.
  3. +failover-state-reconf-slaves <instance details> -- Failover状态变为reconf-slaves状态时
  4. +failover-detected <instance details> -- failover发生时
  5. +slave-reconf-sent <instance details> -- sentinel发送SLAVEOF命令把它重新配置时
  6. +slave-reconf-inprog <instance details> -- slave被重新配置为另外一个masterslave,但数据复制还未发生时。
  7. +slave-reconf-done <instance details> -- slave被重新配置为另外一个masterslave并且数据复制已经与master同步时。
  8. -dup-sentinel <instance details> -- 删除指定master上的冗余sentinel (当一个sentinel重新启动时,可能会发生这个事件).
  9. +sentinel <instance details> -- master增加了一个sentinel时。
  10. +sdown <instance details> -- 进入SDOWN状态时;
  11. -sdown <instance details> -- 离开SDOWN状态时。
  12. +odown <instance details> -- 进入ODOWN状态时。
  13. -odown <instance details> -- 离开ODOWN状态时。
  14. +new-epoch <instance details> -- 当前配置版本被更新时。
  15. +try-failover <instance details> -- 达到failover条件,正等待其他sentinel的选举。
  16. +elected-leader <instance details> -- 被选举为去执行failover的时候。
  17. +failover-state-select-slave <instance details> -- 开始要选择一个slave当选新master时。
  18. no-good-slave <instance details> -- 没有合适的slave来担当新master
  19. selected-slave <instance details> -- 找到了一个适合的slave来担当新master
  20. failover-state-send-slaveof-noone <instance details> -- 当把选择为新masterslave的身份进行切换的时候。
  21. failover-end-for-timeout <instance details> -- failover由于超时而失败时。
  22. failover-end <instance details> -- failover成功完成时。
  23. switch-master <master name> <oldip> <oldport> <newip> <newport> -- master的地址发生变化时。通常这是客户端最感兴趣的消息了。
  24. +tilt -- 进入Tilt模式。
  25. -tilt -- 退出Tilt模式。
  1. +reset-master <instance details> -- master被重置时.
  2. +slave <instance details> -- 当检测到一个slave并添加进slave列表时.
  3. +failover-state-reconf-slaves <instance details> -- Failover状态变为reconf-slaves状态时
  4. +failover-detected <instance details> -- failover发生时
  5. +slave-reconf-sent <instance details> -- sentinel发送SLAVEOF命令把它重新配置时
  6. +slave-reconf-inprog <instance details> -- slave被重新配置为另外一个masterslave,但数据复制还未发生时。
  7. +slave-reconf-done <instance details> -- slave被重新配置为另外一个masterslave并且数据复制已经与master同步时。
  8. -dup-sentinel <instance details> -- 删除指定master上的冗余sentinel (当一个sentinel重新启动时,可能会发生这个事件).
  9. +sentinel <instance details> -- master增加了一个sentinel时。
  10. +sdown <instance details> -- 进入SDOWN状态时;
  11. -sdown <instance details> -- 离开SDOWN状态时。
  12. +odown <instance details> -- 进入ODOWN状态时。
  13. -odown <instance details> -- 离开ODOWN状态时。
  14. +new-epoch <instance details> -- 当前配置版本被更新时。
  15. +try-failover <instance details> -- 达到failover条件,正等待其他sentinel的选举。
  16. +elected-leader <instance details> -- 被选举为去执行failover的时候。
  17. +failover-state-select-slave <instance details> -- 开始要选择一个slave当选新master时。
  18. no-good-slave <instance details> -- 没有合适的slave来担当新master
  19. selected-slave <instance details> -- 找到了一个适合的slave来担当新master
  20. failover-state-send-slaveof-noone <instance details> -- 当把选择为新masterslave的身份进行切换的时候。
  21. failover-end-for-timeout <instance details> -- failover由于超时而失败时。
  22. failover-end <instance details> -- failover成功完成时。
  23. switch-master <master name> <oldip> <oldport> <newip> <newport> -- master的地址发生变化时。通常这是客户端最感兴趣的消息了。
  24. +tilt -- 进入Tilt模式。
  25. -tilt -- 退出Tilt模式。

2)原理

①sentinel集群通过给定的配置文件发现master,启动时会监控master。通过向master发送info信息获得该服务器下面的所有从服务器。
②sentinel集群通过命令连接向被监视的主从服务器发送hello信息(每秒一次),该信息包括sentinel本身的ip、端口、id等内容,以此来向其他sentinel宣告自己的存在。
③sentinel集群通过订阅连接接收其他sentinel发送的hello信息,以此来发现监视同一个主服务器的其他sentinel;集群之间会互相创建命令连接用于通信,因为已经有主从服务器作为发送和接收hello信息的中介,sentinel之间不会创建订阅连接。
④sentinel集群使用ping命令来检测实例的状态,如果在指定的时间内(down-after-milliseconds)没有回复或则返回错误的回复,那么该实例被判为下线。 
⑤当failover主备切换被触发后,failover并不会马上进行,还需要sentinel中的大多数sentinel授权后才可以进行failover,即进行failover的sentinel会去获得指定quorum个的sentinel的授权,成功后进入ODOWN状态。如在5个sentinel中配置了2个quorum,等到2个sentinel认为master死了就执行failover。
⑥sentinel向选为master的slave发送SLAVEOF NO ONE命令,选择slave的条件是sentinel首先会根据slaves的优先级来进行排序,优先级越小排名越靠前。如果优先级相同,则查看复制的下标,哪个从master接收的复制数据多,哪个就靠前。如果优先级和下标都相同,就选择进程ID较小的。
⑦sentinel被授权后,它将会获得宕掉的master的一份最新配置版本号(config-epoch),当failover执行结束以后,这个版本号将会被用于最新的配置,通过广播形式通知其它sentinel,其它的sentinel则更新对应master的配置。

①到③是自动发现机制:

  • 10秒一次的频率,向被监视的master发送info命令,根据回复获取master当前信息。
  • 1秒一次的频率,向所有redis服务器、包含sentinel在内发送PING命令,通过回复判断服务器是否在线。
  • 2秒一次的频率,通过向所有被监视的master,slave服务器发送当前sentinel,master信息的消息。

④是检测机制,⑤和⑥是failover机制,⑦是更新配置机制。

注意:因为redis采用的是异步复制,没有办法避免数据的丢失。但可以通过以下配置来使得数据不会丢失:min-slaves-to-write 1 、 min-slaves-max-lag 10。一个redis无论是master还是slave,都必须在配置中指定一个slave优先级。要注意到master也是有可能通过failover变成slave的。如果一个redis的slave优先级配置为0,那么它将永远不会被选为master,但是它依然会从master哪里复制数据。

上面大致讲解了sentinel的运行机制,更多详细说明信息见上一篇文章

3)运行测试

上面已经搭好了一个简单的测试环境:redis服务3个实例10086(M)、10087(S)、10088(S);sentinel服务3个监控:20086、20087、20088
现在进行一个故障转移的操作:0点30分14秒kill掉10086,Sentinel日志信息:

3466:X 09 Jun 00:30:29.067 # +sdown master T1 127.0.0.1 10086 ##进入主观不可用(SDOWN)
3466:X 09 Jun 00:30:29.169 # +odown master T1 127.0.0.1 10086 #quorum 2/2 ##投票好了,达到了quorum,进入客观不可用(ODOWN)
3466:X 09 Jun 00:30:29.169 # +new-epoch 1 ##当前配置版本被更新
3466:X 09 Jun 00:30:29.169 # +try-failover master T1 127.0.0.1 10086 ##达到failover条件,正等待其他sentinel的选举
3466:X 09 Jun 00:30:29.179 # +vote-for-leader e106f1eaffdaa10babef3f5858a7cb8d05ffe9ea 1 ##选举
3466:X 09 Jun 00:30:29.183 # 127.0.0.1:20088 voted for e106f1eaffdaa10babef3f5858a7cb8d05ffe9ea 1 ##选举
3466:X 09 Jun 00:30:29.184 # 127.0.0.1:20086 voted for e106f1eaffdaa10babef3f5858a7cb8d05ffe9ea 1 ##选举
3466:X 09 Jun 00:30:29.241 # +elected-leader master T1 127.0.0.1 10086 ##执行failover
3466:X 09 Jun 00:30:29.242 # +failover-state-select-slave master T1 127.0.0.1 10086 ##开始要选择一个slave当选新master
3466:X 09 Jun 00:30:29.344 # +selected-slave slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086 ##找到了一个适合的slave来担当新master
3466:X 09 Jun 00:30:29.344 * +failover-state-send-slaveof-noone slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086 ##当把选择为新master的slave的身份进行切换
3466:X 09 Jun 00:30:29.447 * +failover-state-wait-promotion slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086
3466:X 09 Jun 00:30:30.206 # +promoted-slave slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086
3466:X 09 Jun 00:30:30.207 # +failover-state-reconf-slaves master T1 127.0.0.1 10086 ##Failover状态变为reconf-slaves
3466:X 09 Jun 00:30:30.273 * +slave-reconf-sent slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 ##sentinel发送SLAVEOF命令把它重新配置,重新配置到新主
3466:X 09 Jun 00:30:31.250 * +slave-reconf-inprog slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 ##slave被重新配置为另外一个master的slave,但数据复制还未发生
3466:X 09 Jun 00:30:31.251 * +slave-reconf-done slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 ##slave被重新配置为另外一个master的slave并且数据复制已经与master同步
3466:X 09 Jun 00:30:31.340 # -odown master T1 127.0.0.1 10086 ##离开客观不可用(ODOWN)
3466:X 09 Jun 00:30:31.340 # +failover-end master T1 127.0.0.1 10086 ##failover成功完成
3466:X 09 Jun 00:30:31.341 # +switch-master T1 127.0.0.1 10086 127.0.0.1 10088 ##master的地址发生变化
3466:X 09 Jun 00:30:31.341 * +slave slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10088 ##检测到一个slave并添加进slave列表
3466:X 09 Jun 00:30:31.351 * +slave slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088
3466:X 09 Jun 00:30:46.362 # +sdown slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088 ##原主进入主观不可用状态

通过日志信息看到,15秒(down-after-milliseconds)之后进行了failvoer操作,最后操作成功,10088变成了新主,可以通过info sentinel和sentinel maters查看主的信息。把原主开起来,日志信息:

  1. 3466:X 09 Jun 01:00:35.306 # -sdown slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088 ##离开主观不可用状态
  2. 3466:X 09 Jun 01:00:45.249 * +convert-to-slave slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088 ## 检测到一个slave并添加进slave列表

通过日志看到,原主起来之后变成了从。这里可以发现在redis配置文件(可写权限)的最后被添加了:

  1. # Generated by CONFIG REWRITE
  2. slaveof 127.0.0.1 10088

在新主上操作,可以同步复制到从库:

  1. root@zhoujinyi:~# redis-cli -p 10088
  2. 127.0.0.1:10088> set dxy dxy
  3. OK
  4. 127.0.0.1:10088> get dxy
  5. "dxy"
  6. 127.0.0.1:10088>
  7. root@zhoujinyi:~# redis-cli -p 10086
  8. 127.0.0.1:10086> get dxy
  9. "dxy"
  10. 127.0.0.1:10086>
  11. root@zhoujinyi:~# redis-cli -p 10087
  12. 127.0.0.1:10087> get dxy
  13. "dxy"

上面测试说明sentinel自动failover成功。要是kill掉一个sentinel实例会怎么样?可以看日志:

  1. 3466:X 09 Jun 01:14:51.039 # +sdown sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10087 ##进入主观不可用
  2. 3466:X 09 Jun 01:15:32.610 # -sdown sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10087 ##进入客观不可用
  3. 3466:X 09 Jun 01:15:34.497 * -dup-sentinel master T1 127.0.0.1 10087 #duplicate of 127.0.0.1:20088 or a79f189986ab9d3940de48099e18a99abef4d595 ##删除指定master上的冗余sentinel时 (当一个sentinel重新启动时,可能会发生这个事件)
  4. 3466:X 09 Jun 01:15:34.498 * +sentinel sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10087 ##检测到一个sentinel,并进入列表

说明sentinel实例也被其他sentinel监视(上面介绍了各个sentinel相互通信),防止sentinel单点故障。通过日志看到这么多信息,这里需要注意下下面的概念:

① Leader选举:

其实在sentinels故障转移中,仍然需要一个“Leader”来调度整个过程:master的选举以及slave的重配置和同步。当集群中有多个sentinel实例时,如何选举其中一个sentinel为leader呢?

在配置文件中“can-failover”“quorum”参数,以及“is-master-down-by-addr”指令配合来完成整个过程。

A) “can-failover”用来表明当前sentinel是否可以参与“failover”过程,如果为“YES”则表明它将有能力参与“Leader”的选举,否则它将作为“Observer”,observer参与leader选举投票但不能被选举;

B) “quorum”不仅用来控制master ODOWN状态确认,同时还用来选举leader时最小“赞同票”数;

C) “is-master-down-by-addr”,在上文中以及提到,它可以用来检测“ip + port”的master是否已经处于SDOWN状态,不过此指令不仅能够获得master是否处于SDOWN,同时它还额外的返回当前sentinel本地“投票选举”的Leader信息(runid);

每个sentinel实例都持有其他的sentinels信息,在Leader选举过程中(当为leader的sentinel实例失效时,有可能master server并没失效,注意分开理解),sentinel实例将从所有的sentinels集合中去除“can-failover = no”和状态为SDOWN的sentinels,在剩余的sentinels列表中按照runid按照“字典”顺序排序后,取出runid最小的sentinel实例,并将它“投票选举”为Leader,并在其他sentinel发送的“is-master-down-by-addr”指令时将推选的runid追加到响应中。每个sentinel实例都会检测“is-master-down-by-addr”的响应结果,如果“投票选举”的leader为自己,且状态正常的sentinels实例中,“赞同者”的自己的sentinel个数不小于(>=) 50% + 1,且不小与<quorum>,那么此sentinel就会认为选举成功且leader为自己。

在sentinel.conf文件中,我们期望有足够多的sentinel实例配置“can-failover yes”,这样能够确保当leader失效时,能够选举某个sentinel为leader,以便进行failover。如果leader无法产生,比如较少的sentinels实例有效,那么failover过程将无法继续。

② failover过程:

在Leader触发failover之前,首先wait数秒(随即0~5),以便让其他sentinel实例准备和调整(有可能多个leader??),如果一切正常,那么leader就需要开始将一个salve提升为master,此slave必须为状态良好(不能处于SDOWN/ODOWN状态)且权重值最低(redis.conf中)的,当master身份被确认后,开始failover

A)“+failover-triggered”: Leader开始进行failover,此后紧跟着“+failover-state-wait-start”,wait数秒。

B)“+failover-state-select-slave”: Leader开始查找合适的slave

C)“+selected-slave”: 已经找到合适的slave

D) “+failover-state-sen-slaveof-noone”: Leader向slave发送“slaveof no one”指令,此时slave已经完成角色转换,此slave即为master

E) “+failover-state-wait-promotition”: 等待其他sentinel确认slave

F)“+promoted-slave”:确认成功

G)“+failover-state-reconf-slaves”: 开始对slaves进行reconfig操作。

H)“+slave-reconf-sent”:向指定的slave发送“slaveof”指令,告知此slave跟随新的master

I)“+slave-reconf-inprog”: 此slave正在执行slaveof + SYNC过程,如过slave收到“+slave-reconf-sent”之后将会执行slaveof操作。

J)“+slave-reconf-done”: 此slave同步完成,此后leader可以继续下一个slave的reconfig操作。循环G)

K)“+failover-end”: 故障转移结束

L)“+switch-master”:故障转移成功后,各个sentinel实例开始监控新的master。

4)命令查看、修改

查看:

①:info命令

  1. 127.0.0.1:20086> info
  2. # Server
  3. redis_version:3.0.0 #版本号
  4. redis_git_sha1:00000000
  5. redis_git_dirty:0
  6. redis_build_id:e7768317ba5bdca5
  7. redis_mode:sentinel #开启模式
  8. os:Linux 3.16.0-71-generic x86_64 #系统位数
  9. arch_bits:64
  10. multiplexing_api:epoll
  11. gcc_version:4.8.2
  12. process_id:2767 #线程ID
  13. run_id:319d8c58b9bf26c26ca040b53bdc0764a543648b
  14. tcp_port:20086 #端口
  15. uptime_in_seconds:923 #允许时间
  16. uptime_in_days:0
  17. hz:11
  18. lru_clock:6041117
  19. config_file:/etc/redis/sentinel_20086.conf #配置文件
  20.  
  21. # Sentinel
  22. sentinel_masters:1
  23. sentinel_tilt:0
  24. sentinel_running_scripts:0
  25. sentinel_scripts_queue_length:0
  26. master0:name=T1,status=ok,address=127.0.0.1:10087,slaves=2,sentinels=3 #主name,主ip,多少个slave,多少个sentinel
  1. 127.0.0.1:20086> info
  2. # Server
  3. redis_version:3.0.0 #版本号
  4. redis_git_sha1:00000000
  5. redis_git_dirty:0
  6. redis_build_id:e7768317ba5bdca5
  7. redis_mode:sentinel #开启模式
  8. os:Linux 3.16.0-71-generic x86_64 #系统位数
  9. arch_bits:64
  10. multiplexing_api:epoll
  11. gcc_version:4.8.2
  12. process_id:2767 #线程ID
  13. run_id:319d8c58b9bf26c26ca040b53bdc0764a543648b
  14. tcp_port:20086 #端口
  15. uptime_in_seconds:923 #允许时间
  16. uptime_in_days:0
  17. hz:11
  18. lru_clock:6041117
  19. config_file:/etc/redis/sentinel_20086.conf #配置文件
  20.  
  21. # Sentinel
  22. sentinel_masters:1
  23. sentinel_tilt:0
  24. sentinel_running_scripts:0
  25. sentinel_scripts_queue_length:0
  26. master0:name=T1,status=ok,address=127.0.0.1:10087,slaves=2,sentinels=3 #主name,主ip,多少个slave,多少个sentinel

也可以单个显示:info server、info sentinel。

②:sentinel masters,显示被监控的所有master以及它们的状态。要是有多个master就显示多个(复用,监控多个redis,即一个配置文件写多个),例子就1个master

  1. 127.0.0.1:20086> SENTINEL masters
  2. 1) 1) "name" #master name
  3. 2) "T1"
  4. 3) "ip" #master ip
  5. 4) "127.0.0.1"
  6. 5) "port" #master port
  7. 6) "10087"
  8. 7) "runid"
  9. 8) "508e7de9f5aa4fdb70126d62a54392fbefc0b11b"
  10. 9) "flags"
  11. 10) "master"
  12. 11) "pending-commands"
  13. 12) "0"
  14. 13) "last-ping-sent"
  15. 14) "0"
  16. 15) "last-ok-ping-reply"
  17. 16) "261"
  18. 17) "last-ping-reply"
  19. 18) "261"
  20. 19) "down-after-milliseconds" #ping的响应时间
  21. 20) "15000"
  22. 21) "info-refresh"
  23. 22) "620"
  24. 23) "role-reported"
  25. 24) "master"
  26. 25) "role-reported-time"
  27. 26) "1205058"
  28. 27) "config-epoch" #配置文件版本号
  29. 28) "2"
  30. 29) "num-slaves" #从的数量
  31. 30) "2"
  32. 31) "num-other-sentinels" #除本身外还有多少个sentinel
  33. 32) "2"
  34. 33) "quorum" #投票数量
  35. 34) "2"
  36. 35) "failover-timeout" #failover超时时间
  37. 36) "120000"
  38. 37) "parallel-syncs" #多少个从同步
  39. 38) "1"

③:sentinel master <master_name>,显示指定master的信息和状态。

  1. 127.0.0.1:20086> sentinel master T1
  2. 1) "name"
  3. 2) "T1"
  4. 3) "ip"
  5. 4) "127.0.0.1"
  6. 5) "port"
  7. 6) "10087"
  8. 7) "runid"
  9. 8) "508e7de9f5aa4fdb70126d62a54392fbefc0b11b"
  10. 9) "flags"
  11. 10) "master"
  12. 11) "pending-commands"
  13. 12) "0"
  14. 13) "last-ping-sent"
  15. 14) "0"
  16. 15) "last-ok-ping-reply"
  17. 16) "909"
  18. 17) "last-ping-reply"
  19. 18) "909"
  20. 19) "down-after-milliseconds"
  21. 20) "15000"
  22. 21) "info-refresh"
  23. 22) "5820"
  24. 23) "role-reported"
  25. 24) "master"
  26. 25) "role-reported-time"
  27. 26) "1501345"
  28. 27) "config-epoch"
  29. 28) "2"
  30. 29) "num-slaves"
  31. 30) "2"
  32. 31) "num-other-sentinels"
  33. 32) "2"
  34. 33) "quorum"
  35. 34) "2"
  36. 35) "failover-timeout"
  37. 36) "120000"
  38. 37) "parallel-syncs"
  39. 38) "1"
  1. 127.0.0.1:20086> sentinel master T1
  2. 1) "name"
  3. 2) "T1"
  4. 3) "ip"
  5. 4) "127.0.0.1"
  6. 5) "port"
  7. 6) "10087"
  8. 7) "runid"
  9. 8) "508e7de9f5aa4fdb70126d62a54392fbefc0b11b"
  10. 9) "flags"
  11. 10) "master"
  12. 11) "pending-commands"
  13. 12) "0"
  14. 13) "last-ping-sent"
  15. 14) "0"
  16. 15) "last-ok-ping-reply"
  17. 16) "909"
  18. 17) "last-ping-reply"
  19. 18) "909"
  20. 19) "down-after-milliseconds"
  21. 20) "15000"
  22. 21) "info-refresh"
  23. 22) "5820"
  24. 23) "role-reported"
  25. 24) "master"
  26. 25) "role-reported-time"
  27. 26) "1501345"
  28. 27) "config-epoch"
  29. 28) "2"
  30. 29) "num-slaves"
  31. 30) "2"
  32. 31) "num-other-sentinels"
  33. 32) "2"
  34. 33) "quorum"
  35. 34) "2"
  36. 35) "failover-timeout"
  37. 36) "120000"
  38. 37) "parallel-syncs"
  39. 38) "1"

④:sentinel slaves <master_name>,显示指定master的所有slave以及它们的状态。

  1. 127.0.0.1:20086> sentinel slaves T1
  2. 1) 1) "name"
  3. 2) "127.0.0.1:10088"
  4. 3) "ip"
  5. 4) "127.0.0.1"
  6. 5) "port"
  7. 6) "10088"
  8. 7) "runid"
  9. 8) "380a4d9e32aefd3a00c7a64ba8bce451643044f1"
  10. 9) "flags"
  11. 10) "slave"
  12. 11) "pending-commands"
  13. 12) "0"
  14. 13) "last-ping-sent"
  15. 14) "0"
  16. 15) "last-ok-ping-reply"
  17. 16) "15"
  18. 17) "last-ping-reply"
  19. 18) "15"
  20. 19) "down-after-milliseconds"
  21. 20) "15000"
  22. 21) "info-refresh"
  23. 22) "7558"
  24. 23) "role-reported"
  25. 24) "slave"
  26. 25) "role-reported-time"
  27. 26) "1934978"
  28. 27) "master-link-down-time"
  29. 28) "0"
  30. 29) "master-link-status"
  31. 30) "ok"
  32. 31) "master-host"
  33. 32) "127.0.0.1"
  34. 33) "master-port"
  35. 34) "10087"
  36. 35) "slave-priority"
  37. 36) "100"
  38. 37) "slave-repl-offset"
  39. 38) "361068"
  40. 2) 1) "name"
  41. 2) "127.0.0.1:10086"
  42. 3) "ip"
  43. 4) "127.0.0.1"
  44. 5) "port"
  45. 6) "10086"
  46. 7) "runid"
  47. 8) "9babf78ee2b420d2671b12f93b68c4d19a5edf08"
  48. 9) "flags"
  49. 10) "slave"
  50. 11) "pending-commands"
  51. 12) "0"
  52. 13) "last-ping-sent"
  53. 14) "0"
  54. 15) "last-ok-ping-reply"
  55. 16) "15"
  56. 17) "last-ping-reply"
  57. 18) "15"
  58. 19) "down-after-milliseconds"
  59. 20) "15000"
  60. 21) "info-refresh"
  61. 22) "7558"
  62. 23) "role-reported"
  63. 24) "slave"
  64. 25) "role-reported-time"
  65. 26) "1934978"
  66. 27) "master-link-down-time"
  67. 28) "0"
  68. 29) "master-link-status"
  69. 30) "ok"
  70. 31) "master-host"
  71. 32) "127.0.0.1"
  72. 33) "master-port"
  73. 34) "10087"
  74. 35) "slave-priority"
  75. 36) "100"
  76. 37) "slave-repl-offset"
  77. 38) "361068"
  1. 127.0.0.1:20086> sentinel slaves T1
  2. 1) 1) "name"
  3. 2) "127.0.0.1:10088"
  4. 3) "ip"
  5. 4) "127.0.0.1"
  6. 5) "port"
  7. 6) "10088"
  8. 7) "runid"
  9. 8) "380a4d9e32aefd3a00c7a64ba8bce451643044f1"
  10. 9) "flags"
  11. 10) "slave"
  12. 11) "pending-commands"
  13. 12) "0"
  14. 13) "last-ping-sent"
  15. 14) "0"
  16. 15) "last-ok-ping-reply"
  17. 16) "15"
  18. 17) "last-ping-reply"
  19. 18) "15"
  20. 19) "down-after-milliseconds"
  21. 20) "15000"
  22. 21) "info-refresh"
  23. 22) "7558"
  24. 23) "role-reported"
  25. 24) "slave"
  26. 25) "role-reported-time"
  27. 26) "1934978"
  28. 27) "master-link-down-time"
  29. 28) "0"
  30. 29) "master-link-status"
  31. 30) "ok"
  32. 31) "master-host"
  33. 32) "127.0.0.1"
  34. 33) "master-port"
  35. 34) "10087"
  36. 35) "slave-priority"
  37. 36) "100"
  38. 37) "slave-repl-offset"
  39. 38) "361068"
  40. 2) 1) "name"
  41. 2) "127.0.0.1:10086"
  42. 3) "ip"
  43. 4) "127.0.0.1"
  44. 5) "port"
  45. 6) "10086"
  46. 7) "runid"
  47. 8) "9babf78ee2b420d2671b12f93b68c4d19a5edf08"
  48. 9) "flags"
  49. 10) "slave"
  50. 11) "pending-commands"
  51. 12) "0"
  52. 13) "last-ping-sent"
  53. 14) "0"
  54. 15) "last-ok-ping-reply"
  55. 16) "15"
  56. 17) "last-ping-reply"
  57. 18) "15"
  58. 19) "down-after-milliseconds"
  59. 20) "15000"
  60. 21) "info-refresh"
  61. 22) "7558"
  62. 23) "role-reported"
  63. 24) "slave"
  64. 25) "role-reported-time"
  65. 26) "1934978"
  66. 27) "master-link-down-time"
  67. 28) "0"
  68. 29) "master-link-status"
  69. 30) "ok"
  70. 31) "master-host"
  71. 32) "127.0.0.1"
  72. 33) "master-port"
  73. 34) "10087"
  74. 35) "slave-priority"
  75. 36) "100"
  76. 37) "slave-repl-offset"
  77. 38) "361068"

⑤:sentinel get-master-addr-by-name <master_name>,返回指定master的ip和端口,如果正在进行failover或者failover已经完成,将会显示被提升为master的slave的ip和端口。

  1. 27.0.0.1:20086> sentinel get-master-addr-by-name T1
  2. 1) "127.0.0.1"
  3. 2) "10087"

⑥:sentinel reset <pattern>:重置名字匹配该正则表达式的所有的master的状态信息,清除其之前的状态信息,以及slaves信息。比如删除一个slave或则sentinel时候,先关闭停止想要删除的进程,再执行:

  1. sentinel reset *

⑦:sentinel failover <master_name> 强制sentinel执行failover,并且不需要得到其他sentinel的同意。但是failover后会将最新的配置发送给其他sentinel。

  1. 127.0.0.1:20086> sentinel failover T1
  2. OK
  3. 127.0.0.1:20086> sentinel get-master-addr-by-name T1
  4. 1) "127.0.0.1"
  5. 2) "10088" #主被切换了 

⑧:查看其他sentinel信息

  1. sentinel sentinels T1

⑨:检查sentinel监控是否正确

  1. sentinel ckquorum T1

⑩:配置文件丢失,重写配置文件

  1. sentinel flushconfig

修改:包括参数

①:sentinel monitor <master_mname> <ip> <port> <quorum> ,监控一个新的redis master(这时通过sentinel masters可以看到多个)

  1. 127.0.0.1:20086> SENTINEL MONITOR T2 127.0.0.1 10089 2
  2. OK

②:sentinel remove <master_name> 命令sentinel放弃对某个master的监听。删掉上一个加的:

  1. 127.0.0.1:20086> sentinel remove T2
  2. OK

③:sentinel set <master_name> <option> <value> 这个命令很像Redis的CONFIG SET命令,用来改变指定master的配置。支持多个<option><value>。

  1. 127.0.0.1:20086> sentinel masters
  2. 1) ...
  3. 37) "parallel-syncs"
  4. 38) "1"
  5. 127.0.0.1:20086> sentinel set T1 parallel-syncs 2 #格式
  6. OK
  7. 127.0.0.1:20086> sentinel masters
  8. 1) ...
  9. 37) "parallel-syncs"
  10. 38) "2"

注意:只要是配置文件中存在的配置项,都可以用SENTINEL SET命令来设置。这个还可以用来设置master的属性,比如说quorum(票数),而不需要先删除master,再重新添加master。

5) 增加或删除Sentinel

增加一个sentinel很简单,直接配置好参数开启一个sentinel即可。添加时最好一个接着一个添加,这样可以预防网络隔离带来的问题,可以每个30秒添加一个sentinel。通过SENTINEL MASTER mastername(T1)中的num-other-sentinels来查看是否成功添加sentinel。删除一个sentinel稍微复杂一点,sentinel永远不会删除一个已经存在过的sentinel,即使它已经与组织失去联系。遵循如下步骤:

  1. 停止所要删除的sentinel

  2. 发送一个SENTINEL RESET * 命令给所有其它的sentinel实例,如果你想要重置指定master上面的sentinel,只需要把*号改为特定的名字,注意,需要一个接一个发,每次发送的间隔不低于30秒。

  3. 检查一下所有的sentinels是否都有一致的当前sentinel数。使用SENTINEL MASTER mastername 来查询。

  1. 首先 kill 掉一个sentinel
  2.  
  3. 127.0.0.1:20086> sentinel master T1
  4. 1) "name"
  5. 2) "T1"
  6. 3) "ip"
  7. 4) "127.0.0.1"
  8. 5) "port"
  9. 6) "10088"
  10. ...
  11. 31) "num-other-sentinels"
  12. 32) "2"
  13. ...
  14. 127.0.0.1:20086> sentinel reset T1 #重新导入或则执行下面的
  15. (integer) 1
  16. 127.0.0.1:20086> sentinel reset * #因为只有监视一个主,所以和上面一致
  17. (integer) 1
  18. 127.0.0.1:20086> sentinel masters
  19. 1) 1) "name"
  20. 2) "T1"
  21. 3) "ip"
  22. 4) "127.0.0.1"
  23. 5) "port"
  24. 6) "10088"
  25. ...
  26. ...
  27. 31) "num-other-sentinels" #sentinel slave的数量
  28. 32) "1"
  29. ...

6)删除旧master或者不可达slave

要永久地删除掉一个slave(有可能它曾经是个master),你只需要发送一个SENTINEL RESET master命令给所有的sentinels,它们将会更新列表里能够正确地复制master数据的slave。 遵循如下步骤:

  1. 停止所要删除的redis slave。

  2. 发送一个SENTINEL RESET * 命令给所有其它的sentinel实例,如果你想要重置指定master上面的slave,只需要把*号改为特定的名字。

  3. 检查一下所有的sentinels是否都有一致的当前sentinel数。使用SENTINEL MASTER mastername 来查询。

  1. 首先 kill 掉一个slave
  2.  
  3. 127.0.0.1:20086> sentinel masters
  4. 1) 1) "name"
  5. 2) "T1"
  6. 3) "ip"
  7. 4) "127.0.0.1"
  8. 5) "port"
  9. 6) "10088"
  10. ...
  11. 29) "num-slaves" #多少个slave
  12. 30) "2"
  13. ...
  14. 127.0.0.1:20086> sentinel reset T1 #重新导入或则执行下面的
  15. (integer) 1
  16. 127.0.0.1:20086> sentinel reset * #和上面一致
  17. (integer) 1
  18. 127.0.0.1:20086> sentinel masters
  19. 1) 1) "name"
  20. 2) "T1"
  21. 3) "ip"
  22. 4) "127.0.0.1"
  23. 5) "port"
  24. 6) "10088"
  25. ...
  26. 29) "num-slaves" #多少个slave
  27. 30) "1"
  28. ...

注意:要是再次开启关闭掉的redis slave会继续当成一个slave,若要彻底关闭slave,则需要修改关闭掉的redis配置文件中最后的:

  1. # Generated by CONFIG REWRITE
  2. slaveof 127.0.0.1 10088 #关闭改参数

7)总结

Redis-Sentinel是Redis官方推荐的高可用性(HA) 解决方案,Redis-sentinel本身也是一个独立运行的进程,它能监控多个master-slave集群,发现master宕机后能进行自动切换。Sentinel可以监视任意多个主服务器(复用),以及主服务器属下的从服务器,并在被监视的主服务器下线时,自动执行故障转移操作。

为了防止sentinel的单点故障,可以对sentinel进行集群化,创建多个sentinel。

Redis 复制、Sentinel的搭建和原理说明(转)的更多相关文章

  1. Redis 复制、Sentinel的搭建和原理说明

    背景: Redis-Sentinel是Redis官方推荐的高可用性(HA)解决方案,当用Redis做Master-slave的高可用方案时,假如master宕机了,Redis本身(包括它的很多客户端) ...

  2. redis复制+Sentinel搭建

    1:实验环境 测试环境两台: master:172.16.16.34 slave:172.16.16.35 redis版本:redis3.2 要搭建的环境是,redis简单主从复制 2:安装redis ...

  3. 深入剖析Redis系列: Redis集群模式搭建与原理详解

    前言 在 Redis 3.0 之前,使用 哨兵(sentinel)机制来监控各个节点之间的状态.Redis Cluster 是 Redis 的 分布式解决方案,在 3.0 版本正式推出,有效地解决了 ...

  4. Redis哨兵(sentinel)模式搭建

    一.Sentinel介绍 之前骚了一波Redis的简介及应用场景,今天试了下他的哨兵模式: Sentinel是Redis的高可用性(HA)解决方案,由一个或多个Sentinel实例组成的Sentine ...

  5. Redis之Sentinel高可用安装部署

    背景: 之前通过Redis Sentinel 高可用实现说明和Redis 复制.Sentinel的搭建和原理说明大致已经介绍了sentinel的原理和实现,本文再次做个简单的回顾.具体的信息见前面的两 ...

  6. redis复制原理和应用

    1.前言 说到分布式高可用,必然少不了复制,一来是为了做个冗余备份防止数据丢失,二来还可以达到分流来提高性能的目的.基本架构: 下面用M表示Master(主服务器),S表示Slave(从服务器),话不 ...

  7. redis单点、redis主从、redis哨兵sentinel,redis集群cluster配置搭建与使用

    目录 redis单点.redis主从.redis哨兵 sentinel,redis集群cluster配置搭建与使用 1 .redis 安装及配置 1.1 redis 单点 1.1.2 在命令窗口操作r ...

  8. Redis复制与可扩展集群搭建

    抄自:http://www.infoq.com/cn/articles/tq-redis-copy-build-scalable-cluster 讨论了Redis的常用数据类型与存储机制,本文会讨论一 ...

  9. (转)Redis复制与可扩展集群搭建

    讨论了Redis的常用数据类型与存储机制,本文会讨论一下Redis的复制功能以及Redis复制机制本身的优缺点以及集群搭建问题. Redis复制流程概述 Redis的复制功能是完全建立在之前我们讨论过 ...

随机推荐

  1. CLOSE_WAIT问题讨论

    1.https://cloud.tencent.com/developer/article/1347610 2.https://blog.huoding.com/2016/01/19/488 3.ht ...

  2. elasticsearch配置优化

    调整ES内存分配有多种方式,建议调整 elasticsearch 中的设置(还可以直接修改bin下的启动脚本). # Directory where the Elasticsearch binary ...

  3. jun引导1.04可以让N3050支持6.2

    1.03引导用在3050可以安装 但是安装后找不到dsm 需要手动插拔电源才可以解决 偶尔还会死机 1.04可以引导3050安装6.2 23739 安装24922正常,但是moments传照片后会死机 ...

  4. STL与泛型编程-第一周笔记-Geekband

    1, 模板观念与函数模板 简单模板: template< typename T > T Function( T a, T b) {- } 类模板: template struct Obje ...

  5. 如何转移Pycharm的设置或者缓存到其他盘

    因为Pycharm项目缓存C:\Users\wq\.PyCharm2017.2\system\caches下面的content.dat.storageData特别大,占用很多C盘空间,所以我就想办法, ...

  6. [UVA12235] Help Bubu 思维题+状态定义+Dp

    Online Judge:UVA12235 Label:思维题,状态定义,状压Dp 题面: 题目描述 有一个书架,上面放了n本书,从左往右的第i本书的高度为h[i].定义书架的混乱度为连续等高段的个数 ...

  7. vue 生产环境和测试环境的配置

    我们引用的是axios 给src目录增加 api 文件夹 里面写上index.js // 配置API接口地址 var root = process.env.API_ROOT // 引用axios va ...

  8. Odoo Documentation : Environment

    Environment The Environment stores various contextual data(上下文数据 ) used by the ORM: the database cur ...

  9. cannot be cast to javax.servlet.Servlet 解决

    使用maven创建web项目的时候,通过添加依赖的方式来添加servlet-api,如下 通过maven的命令(tomcat:run)来启动项目,发现访问的时候报错,错误如下: 错误排查: 首先查看s ...

  10. IDEA2018激活码

    请复制如下内容到文本编辑器(如notepad++)把博客的内容去掉 N757JE0KCT-eyJsaWNlbnNlSWQiOiJONzU3SkUwS0NUIiwibGljZW5zZWVOYW1lIjo ...