Redis集群搭建很easy

前言

哨兵模式虽然让读写分离更加高可用，但单台服务器由于本身的内存和CPU瓶颈，对于高并发和大数据业务的应用场景还是远远不能满足；对于这种情况，有点经验的小伙伴会毫不犹豫的想到集群，搞他好几个节点，负载均衡再加上故障转移，岂不美哉。是的，就是这个理，接下来玩玩。

正文

集群，相信这个词小伙伴应该听的耳朵起茧子了吧；多搞几台服务器，让请求/命令平均分发到各个服务器，避免单台服务器承载过大压力；对于Redis集群来说，为了实现自动故障转移，还需要在每个主节点上增加一个或多个从节点，当主节点发生故障时，从节点自动补上，实现高可用。

总的来说，Redis集群有以下作用：

多主节点的实现可以应对高并发场景，并发量增大，节点可以随时扩展满足需求；
多主节点的实现可以存储更多的数据，因为数据均匀分布到各个节点；
多主节点搭配多从节点的实现让高可用更加稳定，即当有主节点发生故障时，对应下面的从节点会升级为主节点，正常提供功能；

老规矩不变，一边实操一边总结，接下来搭建一个3主3从的集群，这是最简单的。 Redis集群中最少需要3个主节点，再加上为了实现高可用，每个主节点至少得跟一个从节点，不然一个主节点挂了，找不到完整的数据，整个集群就不能用了；至于为什么会找不到完整的数据，下面会聊到。

接下来要搭建的集群环境如下：

简要说明：

6370为主节点，6381为6370的从节点；
6380为主节点，6391为6380的从节点；
6390为主节点，6371为6390的从节点；
在集群环境中主节点之间是相互通讯的(这里没有哨兵)，每一个节点都是数据节点；

这里集群方案使用redis-cli自动指定主从关系(小伙伴的主从关系可能会和我这不一样哦)，也可以手动指定；反正思路都一样；

以下演示在同一台机器上，通过端口区分各个节点；在实际开发中，一般都是用不同的服务器。

案例演示

准备六个节点的配置文件，开启集群相关配置；

拷贝最初默认的配置文件，然后进行更改，主要更改以下项：

port 6370 # 指定Redis节点端口

pidfile /var/run/redis_6370.pid # 指定对应进程文件

dbfilename dump6370.rdb # 每个节点的rdb持久化文件

cluster-enabled yes # 开启集群，这个比较重要

cluster-config-file nodes-6370.conf #指定每个节点的集群配置文件，这个比较重要

以上配置文件内容在其他节点(6370,6371,6380,6381,6390,6391)都需要进行修改，只是将其中6370改为对应节点的端口即可，目的就是为了不同节点使用不同端口并区分用到的不同文件即可；比如需要修改6371节点的配置文件如下：

port 6371 # 指定Redis节点端口

pidfile /var/run/redis_6371.pid # 指定对应进程文件

dbfilename dump6371.rdb # 每个节点的rdb持久化文件

cluster-enabled yes # 开启集群，这个比较重要

cluster-config-file nodes-6371.conf #指定每个节点的集群配置文件，这个比较重要

其中cluster-enabled和cluster-config-file是集群配置的重点。

启动六个节点，刚开始各个节点是相互独立的；

准备好配置文件之后，就可以使用redis-server指定配置文件启动节点啦，如果节点多，小伙伴可以编写脚本哦；
```
./redis-server ZoeCluster/redis6370.conf # 启动6370节点

./redis-server ZoeCluster/redis6371.conf # 启动6371节点

./redis-server ZoeCluster/redis6380.conf # 启动6380节点

./redis-server ZoeCluster/redis6381.conf # 启动6381节点

./redis-server ZoeCluster/redis6390.conf # 启动6390节点

./redis-server ZoeCluster/redis6391.conf # 启动6391节点
```
启动效果如下：

这样只是将各个节点启动起来，集群关系还没创建呢，如果不信，可以使用redis-cli连接任意一个节点查看集群信息，如下：

如上图，cluster-size为0，集群的关键，槽也还没有分配；那接下来肯定是要将各节点的集群关系搞起来；
建立节点集群关系

由于我使用的Redis版本是5.0，直接可以使用redis-cli就可以进行集群搭建，在此版本之前都推荐使用redis-trib.rb进行相关操作，这个是一个Ruby脚本，需要安装相关环境，小伙伴可以下来尝试；

使用命令如下：
```
./redis-cli --cluster create --cluster-replicas 1 127.0.0.1:6370 127.0.0.1:6380 127.0.0.1:6390 127.0.0.1:6371 127.0.0.1:6381 127.0.0.1:6391
```
参数简介：

-- cluster : 指定是用于创建集群环境；

-a：密码，即如果有密码，可以通过-a传参，这里没有设置密码；

--cluster-replicas：这里设置为1, 用于配置主节点上的从节点数，1就代表一主一从，2就代表一主二从，依次类推；

后面的是节点IP:节点端口，一般前面的是主节点，后面的是从节点；

如果同意集群方案，然后就开始进行相关操作，如下：

同样，可以连接到任意一个节点，查看集群情况，如下：

注：关于主从节点之间的主从复制过程就不在这说了，和之前说过的主从复制一样；
演示访问操作；

使用redis-cli连接任意节点写入数据，如果不指定集群连接的话，会写入数据失败，如下：

由于集群环境下，数据的存储位置是根据Key来计算而来的(这里牵涉到一致性哈希算法)，使得数据可以均匀分配到各节点上，所以在redis-cli连接的时候需要指定集群模式，如下：

如上图所示，指定集群模式之后就可以正常存取了；
故障演示

既然集群环境，肯定少不了要好好测测；

模拟从节点挂掉

找个从节点停掉试试，这里停掉6371节点，根据创建集群信息知道，它的主节点是6390；

主节点显示从节点断开连接，看看它的主节点反应：

其他集群节点只是将从节点标记为failing状态，即下线状态，如下：

对于存取数据也不受影响，这里就不截图了，小伙伴自行尝试吧；

当故障的从节点6371重新连上时，主节点恢复主从关系，并进行主从复制操作；其他集群节点会清除原来标记的下线状态，将其改为上线；

模拟主节点挂掉

这里就手动将6390这个节点停掉，会有怎样的反应呢？

自身从节点会每隔一秒检测连接，如果超时(默认是15秒)，会选举从节点做为集群的主节点来提供服务，如下图：

数据存取最终还是不受影响；

对于其他集群节点，将故障节点标记为failing，让新上任的主节点提供服务，如下图：

存取数据也是不受影响的；

挂掉的主节点6390如果恢复，那它只能变为6371的从节点啦，并进行相关主从复制操作；而集群的其他节点只是将其原有的Fail状态清除，表示可以正常连接；

Redis集群就是这样简单，只要思路对，就是手工活；小伙伴可以编写脚本自动执行哦；

接下来说说集群数据的存储；

数据存储简单分析

在Redis集群环境中，数据的存储位置是根据对Key的Hash计算进行指定的； Redis集群为了在节点改变时保证数据分布均匀，引入了槽(slot)作为迁移的基本单位，槽解耦了数据和实际节点的关系，使得实际节点数的改变对系统影响较小；

在整个集群中，槽(slot)总共有16384，会将其均匀分配到集群的主节点上，其中每一份槽对应一个存储空间(这里的存储空间可以理解为一个容器，是可以存很多数据的)，以上集群环境的槽分配如下：

存储数据的过程，如下：

连接6380主节点，执行如下操作：

具体过程如下：

简要说明：

客户端发起命令；
服务器将Key进行CRC16计算，并与总槽位计算出Key需要存储的位置；
这里模拟的Key为zoe，计算出的槽位为14588，不在6380这个节点上，集群节点会将其重定向到对应槽位的节点上；
然后找到6371上的14588槽位进行数据存储；（注，这里的6371已经是主节点了，因为上面做过一次故障转移模拟）；

那集群节点是如何知道其他节点的槽范围和其他信息呢？

那是因为各节点之间有通讯，通讯端口是对应的redis端口+10000，比如节点6371的集群通讯端口为16371（如果多台机器，别忘了防火墙放开这个端口哦），可以通过cluster nodes看到，如下：

并且将各节点的信息保存在自己对应的集群配置文件中，这个集群文件名是通过配置项cluster-config-file指定的，在集群节点启动时会检查该文件是否存在，如果不存在，会自动创建，如果存在，就加载里面的相关配置信息；里面有哪些信息，随便找个节点的配置文件看一下：

如上图所示，各节点的配置文件中记录了其他节点的主从关系，分配的槽位，各节点的状态；这样的话，集群关系就算重新启动也还存在。

集群伸缩(节点增删)演示

在实际应用场景中，会根据业务需要，对集群进行伸缩，即节点的增删；业务并发大了加节点进行扩展，节点需要调整时可能需要进节点删除；

加节点

这里进行节点扩展，加一个6360主节点，6361作为6360的从节点；参照以上集群搭建时配置文件更改，然后将其都启动，如下：

6360节点

port 6360 # 指定Redis节点端口

pidfile /var/run/redis_6360.pid # 指定对应进程文件

dbfilename dump6360.rdb # 每个节点的rdb持久化文件

cluster-enabled yes # 开启集群，这个比较重要

cluster-config-file nodes-6360.conf #指定每个节点的集群配置文件，这个比较重要

6361节点

port 6361 # 指定Redis节点端口

pidfile /var/run/redis_6361.pid # 指定对应进程文件

dbfilename dump6361.rdb # 每个节点的rdb持久化文件

cluster-enabled yes # 开启集群，这个比较重要

cluster-config-file nodes-6361.conf #指定每个节点的集群配置文件，这个比较重要

两个节点都启动，然后将6360加入到集群主节点中，执行以下命令：

./redis-cli --cluster add-node 127.0.0.1:6360 127.0.0.1:6370

注：其中127.0.0.1:6360是需要加入的新增节点，127.0.0.1:6370是现有集群中的任意一个节点；

可以通过以下命令检测集群状态，如下：

./redis-cli --cluster check 127.0.0.1:6370  # 后面的地址是任意的集群节点

可以看到6360已经加入到集群环境中，但现在还没有从节点和槽分配，所以接下来先将6361作为6360的从节点加入，如下：

./redis-cli --cluster add-node --cluster-slave --cluster-master-id eaa814dc56beb0d5edb6a4fbb14f1384e78d4764 127.0.0.1:6361 127.0.0.1:6370

参数说明：

--cluster-slave : 意思就是加入的是从节点；
--cluster-master-id：后面紧跟主节点的id，这里就是6360的节点id；通过cluster nodes可以查看到节点id；
127.0.0.1:6361：需要加入的从节点；
127.0.0.1:6370：现有集群的任意主节点；

现在还差槽分配了，如果需要直接将16384个槽平均分配到所有节点话，直接执行以下命令即可：

./redis-cli --cluster rebalance --cluster-threshold 1 --cluster-use-empty-masters 127.0.0.1:6370

使用命令./redis-cli --cluster check 127.0.0.1:6370查看分配结果，如下图，只截了部分：

如果不想均匀分配，根据自定义需要进行配置，可以执行以下命令，会提示一步一步配置；

./redis-cli --cluster reshard 127.0.0.1:6360 #后面是新加入的主节点

# 也可以执行以下指令直接配置想要的数据

./redis-cli --cluster reshard --cluster-from all --cluster-to 需要分配槽的节点id --cluster-slots 1000 --cluster-yes 127.0.0.1:6370 # 1000 指分配的槽数

这里就不截图演示了，留给小伙伴自己动手操作吧；

删除节点

先对节点进行分片工作，防止数据丢失，即将指定节点上的槽分配到其他节点；

./redis-cli --cluster reshard 要删除节点ip:port
移除节点，推荐先删除从节点，再删除主节点；

./redis-cli --cluster del-node 节点ip:port 节点id

集群配置项

cluster-enabled(是否开启集群模式)：设置为yes，将该节点开启为集群模式；
cluster-config-file(设置每个集群节点对应的配置文件名称)：文件是自动生成的，不用手动创建；
cluster-node-timeout(设置超时时间，即集群节点不可用的最大时间，如果超过这个时间就认为该节点不可用)：默认为15000(以毫秒为单位)；
cluster-migration-barrier(配置一个主机最少可用的从机的个数)：默认是1,表示一个主机的从机迁移之后，至少得有一个从机可用，否则不进行节点迁移；
cluster-require-full-coverage(配置集群服务的可用性)：默认yes开启，即集群没完全覆盖所有slot，集群就挂了；设置为no，就算槽没有全分配，也能提供服务，需要自己保证槽分配；

总结

到这集群的搭建就完啦，本来想着写着很简单的，没想到又干了4000字；对于集群，使用有一些限制，比如Keys命令只能针对当前节点，需要针对多节点的情况进行处理；集群中各节点只支持db0数据库，其他数据库不支持等等；所以使用要注意哦，后续抽时间单独整理一篇注意事项吧，篇幅有点长，不继续聊啦；下篇说说熟悉的缓存穿透、缓存击穿、缓存雪崩吧；

一个被程序搞丑的帅小伙，关注"Code综艺圈"，跟我一起学~~~