常用数据库高可用和分区解决方案(1)

在本文中我们将会讨论MySQL、Oracle、MongoDB、Redis以及Oceanbase数据库，大家可能会奇怪为什么看不到有名关系型数据库MSSQL、DB2或者有名NoSQL数据库Hbase、LevelDB等，最主要原因是我对这些数据库熟悉层度不够。但相信这些数据库都会有相应的解决方案。

首先我们看一下数据库以及常看到的HA以及分布式架构方案

数据库类型	架构方案	架构类型
MySQL	Keepalived+MySQL Replication	HA
	MHA+MySQL Replication	HA
	Febric	HA/SHARDING
	Other	HA/SHARDING
Oracle	MAA	HA
MongoDB	Replica Set	HA
	Shareding	SHARDING
Redis	keepalivied + MS	HA
	Sentinel + MS	HA
	Twemproxy	SHARDING

# 本次主要讨论这些架构的实现原理，可以挖掘这些架构不足的地方在哪里，如何去改善等等。

首先，我们很有必要先阅读邓博(何登成)的《数据一致性-分区可用性-性能——多副本强同步数据库系统实现之我见》

文章前面就有我们所关心的四个问题：

问题一：数据一致性。在不使用共享存储的情况下，传统RDBMS（例如：Oracle/MySQL/PostgreSQL等），能否做到在主库出问题时的数据零丢失。

问题二：分区可用性。有多个副本的数据库，怎么在出现各种问题时保证系统的持续可用？

问题三：性能。不使用共享存储的RDBMS，为了保证多个副本间的数据一致性，是否会损失性能？如何将性能的损失降到最低？

问题四：一个极端场景的分析。

在这里，我们基本结合着第一和第二个问题来讨论本次的话题，数据库的高可用和分区解决方案。

数据一致性分为强一致性和弱一致性，其中弱一致性里包含我们在NoSQL中常听到的最终一致性。选择强一致性或者弱一致性，很大程度上取决于业务类型和数据库类型，比如：阿里淘系电商大量使用MySQL数据库保证数据强一致，比如阿里蚂蚁系金融通过Oceanbase数据库保证数据强一致，而像新浪微博则选用Redis数据库无需保证数据强一致。

从上面数据库中关系型数据库MySQL和Oracle都是基于ACID的，并且采用WAL（Write-Ahead-Logging）技术，保证事物日志先刷磁盘。MySQL有binlog日志，Oracle则有Read Log，MongoDB虽是NoSQL，但比较特殊，其同步有核心依赖Oplog。在主备复制关系中，MySQL有半同步复制，Oracle则拥有最大保护模式的DataGuard都能保证数据的强一致，MongoDB可以通过getLastError命令来保证写入的安全，但其毕竟不是事务操作，无法做到数据的强一致。

下面来看看上面列出的架构，首先看MySQL的方案，我们逐个讨论。

1、Keepalived+MySQL Replication

简单画出来如下图所示，我们通过开源HA软件Keepalived来实现高可用，DB的话可以选择MySQL MM或者MS架构，个人更建议使用MM架构，因为MS架构在一次切换之后需要重做同步，而MM则大部分情况下不用重做，除非出现数据不一致现象。这种架构读写压力都在VIP所在的一端，当然我们完全灵活地将部分读压力放到另一端，比如手动查询或者可用性不太敏感的读程序，大家要考虑清楚备机是没有高可用的保护的。

一般在如下情况下将会触发Keepalived进行一次HA切换：

1）当前主服务器宕机；

2）当前主服务器Keepalived本身出现故障；

3）当前主库出现故障；

Keepalived进行HA切换，VIP将会漂移到备机上，应用连接都是通过VIP接口来进行，所以可以说对业务是透明的操作。

但这里还是存在一些我们需要考虑的问题，比如发生第二种情况，当前主服务器上Keepalived本身出现故障导致Keepalived进行HA切换，这时候DB是正常的，如果有长任务挂在那里是有问题的，正常我们应该是kill掉这些Thread，应用配合重新在新库上执行一遍。

另外，如果MySQL采用异步同步，那还需要考虑意外宕机时造成数据丢失的问题，通常是后续需要进一步处理，可以手动也可以自动化掉。

我们在看看使用中可能会遇到的场景，业务在这环境上正常运行一段时间，在某一时刻备机上的Keepalived本身出现故障而进程退出，但因欠缺监控导致没人知晓，过一段时间主机也出现问题触发HA切换，但这时候已无心跳关系，VIP无法进行漂移，直接影响业务。这种问题在监控不到位或者监控疏漏的情况之下经常发生，后果也比较严重，所以称职的DBA务必做好监控，而且保持对告警的敏感度。

还有一种场景是采用MySQL MS架构时，业务正常运行一段时间之后进行了一次HA切换，VIP漂移到备机上，原MS同步关系遭到破坏，DBA在未知情况之下把原主库的Keepalived进程恢复，业务再运行一段时间之后再做了一次HA切换，VIP漂移到最原始的主库上，这就活脱脱产生了数据丢失，如果该问题发现很晚，那DBA就遭罪了，不光影响业务，修补数据都使得DBA疯掉！

最后我们抛出一个问题，因网络问题导致HA的心跳中断，这时候会是怎样的情况？该问题留给大家自己思考。

2、MHA+MySQL Replication

MHA有个监控管理节点，该节点可管理多套MySQL集群，如果Master遇到故障，MHA就触发一次Failover，候选的主节点会提升为主库，其他slave节点重新Change master到新主库，其中通过在配置文件里设置优先级来确定候选主节点。

MHA进行Failover过程：

1）检测到Master异常，进行一系列判断，最后确定Master宕掉；

2）检查配置信息，罗列出当前架构中各节点的状态；

3）根据定义的脚本处理故障的Master，VIP漂移或者关掉mysqld服务；

4）所有Slave比较位点，选出位点最新的Slave，再与Master比较并获得binlog的差异，copy到管理节点；

5）从候选节点中选择新的Master，新的Master会和位点最新的Slave进行比较并获得relaylog的差异；

6）管理节点把binlog的差异copy到新Master，新Master应用binlog差异和relaylog差异，最后获得位点信息，并接受写请求(read_only=0)；

7）其他Slave与位点最新的Slave进行比较，并获得relaylog的差异，copy到对应的Slave；

8）管理节点把binlog的差异copy到每个Slave，比较Exec_Master_Log_Pos和Read_Master_Log_Pos，获得差异日志；

9）每个Slave应用所有差异日志，然后reset slave并重新指向新Master；

10）新Master reset slave来清除Slave信息。

MHA还支持在线切换，过程简化如下;

1）核实复制配置并识别出当前的Master；

2）识别出新的Master;

3）拒绝当前主写入；

4）等待所有的SLAVE追上数据；

5）新的Master开启写入；

6）其他Slave全部指向新的Master。

MHA能够保证主库出现异常的时候可以正常切换，但它却不保证Slave的问题，如果你的应用直连Slave进行只读，当Slave出现故障的时候业务会受到影响。

我们可以在Slave节点之上加一层SLB层，也就是做一下负载均衡，如下

MySQL复制选择异步还是半同步，这个问题在上面已经讨论过，如果想不丢失数据，就选择半同步复制。

另外，我们思考一个问题，管理节点故障会产生什么影响？如何保护管理节点？其宕机不可恢复的情况下如何处理？

3、Fabric

Fabric是Oracle自己推出的一款产品，可以实现HA和Sharding解决方案。Fabric的功能还是蛮吸引人的，它的自动Failover，读写分离以及自动分片等这些特性在数据库架构中最为关注的特性。但毕竟是一个新兴产品，投入生产使用经验很少，暴漏出的问题也不多，所以在核心业务上使用Fabric还是有一定的风险。

Fabirc架构里有几个组件，

Fabric-aware Connectors

● Python, PHP, and Java(Connector/Python、Connector/PHP、Connector/J)

● Enhanced Connector API

MySQL Fabric Node

● Manage information about farm

● Provide status information

● Execute procedures

MySQL Servers

● Organized in High-Availability Groups

● Handling application data

应用都会请求Fabric连接器，然后通过使用XML-RPC协议访问Fabric节点，Fabric节点依赖于备用存储(backing store)，其实就是MySQL实例，存储整个HA集群的元数据信息。连接器读取backing store的信息，然后将元数据缓存到cache，这样做的好处就是减少每次建立连接时与管理节点交互所带来的开销。

Fabric节点可管理多个HA Group，每个HA Group里有一个Primary和多个Secondary(slave)，当Primary异常的时候会从Secondary中选出最合适的节点提升为新Primary，其余Secondary都将重新指向新Primary。这些都是自动操作，对业务是无感知的，HA切换之后还需要通知连接器更新的元数据信息。Fabirc的读写分离是怎么做到的？其实还是借助连接器，根据应用的请求类别选择发送给Primary还是Secondary，如果是写操作，连接器就路由到Primary，而如果是读操作，会以负载均衡方式发送给活跃的Secondary。

在这里我们想一个问题，如果Fabric节点出现故障会是怎样的情况？其实很简单，如果HA Group没有因故障而产生任何变化，进而元数据信息不变，那么连接器依然会正确的路由请求，因为连接器已缓存过元数据信息。但一旦HA Group里出现故障，比如Primary或者Secondary失败，前者会导致自动failover不会产生，进而影响数据库的写入，后者则部分读请求将会失败。所以监控并管理好Fabric节点是非常重要的。

Fabric另一个主要特性是分片，Fabric支持自动分片，目前Fabric支持两种类型的分片 — HASH和RANGE，其中RANGE方法要求拆分字段属性为数字型。

应用访问数据库还是依赖连接器，并且必须指定片键。在分片的场景中，连接器会起路由分发的作用。

为保安全，强烈建议生产环境中每个分片都采用HA Group。

真实的环境中，并非所有的表都需要拆分，因此Fabric还会创建一个全局组(Global Group)，里面存放所有全局表(Global Table),而每个分片都将会存放全局表的副本，这样做的好处就是方便了拆分表和非拆分表的JOIN操作。如果应用对全局表进行更新，连接器将会把请求发到全局组，全局组又将自己的变化同步到各个HA Group。

分片的大致工作流我们了解到了，我们还需关心其稳定性以及性能，因为目前还没在生产环境中真正使用过，这个问题先挂在这里。

4、Other

除了上面介绍的方案之外，还有非常多的高可用解决方案，比如MMM、Galera、DRBD+Pacemaker+Corosync、Heartbeat+DRBD等等，而分库分表的话可以使用淘宝非常知名的TDDL。

当然，如果条件允许也完全可以自己开发出一套强大的HA软件和中间件，或者对上述开源软件进行二次开发，只不过我们需要在开发之初就将规模化的成分加入进去，要知道我们开发出来的产品不应该仅限于某几个场合或者某几种条件之下，而应充分体现大众化，就像是可插拔的API，适应大多数场景，在规模化运维环境之下发挥良好作用。

常用数据库高可用和分区解决方案(1) — MySQL篇的更多相关文章

常用数据库高可用和分区解决方案(2) — MongoDB篇
MongoDB是当前比较流行的文档型数据库,其拥有易使用.易扩展.功能丰富.性能卓越等特性.MongoDB本身就拥有高可用及分区的解决方案,分别为副本集(Replica Set)和分片(shardin ...
MySQL MGR+ Consul之数据库高可用方案
背景说明: 基于目前存在很多MySQL数据库单点故障,传统的MHA,PXC等方案用VIP或者DNS切换的方式可以实现.基于数据库的数据强一致性考虑,采用MGR集群,采用consul服务注册发现 ...
数据库高可用架构(MySQL、Oracle、MongoDB、Redis)
一.MySQL MySQL小型高可用架构方案:MySQL双主.主从 + Keepalived主从自动切换服务器资源:两台PC Server 优点:架构简单,节省资源缺点:无法线性扩展,主从失 ...
[转]数据库高可用架构(MySQL、Oracle、MongoDB、Redis)
一.MySQL MySQL小型高可用架构方案:MySQL双主.主从 + Keepalived主从自动切换服务器资源:两台PC Server 优点:架构简单,节省资源缺点:无法线性扩展,主从失 ...
MYSQL数据库高可用方案探究
MySQL作为最关键的应用数据存储中心,如何保证MySQL服务的可靠性和持续性,是我们不得不细致考虑的一个问题.当master宕机的时候,我们如何保证数据尽可能的不丢失,如何保证快速的获知master ...
基于Consul的数据库高可用架构【转】
几个月没有更新博客了,已经长草了,特意来除草.本次主要分享如何利用consul来实现redis以及mysql的高可用.以前的公司mysql是单机单实例,高可用MHA加vip就能搞定,新公司mysql是 ...
(转)Oracle与DB2在数据库高可用技术上的相同与差异探讨
原文:http://www.talkwithtrend.com/Article/178339 数据库建设过程中,高可用是每一个企业数据中心数据库建设过程中至关重要的一个关注点,直接关系到业务连续性和稳 ...
基于Consul的数据库高可用架构
几个月没有更新博客了,已经长草了,特意来除草.本次主要分享如何利用consul来实现redis以及mysql的高可用.以前的公司mysql是单机单实例,高可用MHA加vip就能搞定,新公司mysql是 ...
美团点评MySQL数据库高可用架构从MMM到MHA+Zebra以及MHA+Proxy的演进
本文介绍最近几年美团点评MySQL数据库高可用架构的演进过程,以及我们在开源技术基础上做的一些创新.同时,也和业界其它方案进行综合对比,了解业界在高可用方面的进展,和未来我们的一些规划和展望. MMM ...

随机推荐

android RelativeLayout 动态设置高度
定义: private RelativeLayout mrlay; 调高度: mrlay = (RelativeLayout) findViewById(R.id.rlay_1); android.v ...
NoSql之旅--Cassandra的Cql简介(二)
安装完Cassandra后我们就开始体验一下这个数据库的查询吧,传统的关系数据库使用的sql进行查询,而Cassandra使用的cql. cql语法还是很多的,这里不一一详细阐述了,也没这个必要,具体 ...
报表引擎API开发入门— EJB程序数据源
我们前面讲了几个数据源,今天我们来讲一下EJB数据源,这篇讲完我们数据源这部分就讲完了.数据连接不需要直接访问数据库,而是使用EJB做为数据源.FR通过定义程序数据集使用EJB的相关类获取到EJB数据 ...
[转]学习Nop中Routes的使用
本文转自:http://www.cnblogs.com/miku/archive/2012/09/27/2706276.html 1. 映射路由大型MVC项目为了扩展性,可维护性不能像一般项目在Gl ...
ZooKeeper开发手册中文翻译（转）
本文Github地址:https://github.com/sundiontheway/zookeeper-guide-cn 本文假设你已经具有一定分布式计算的基础知识.你将在第一部分看到以下内容: ...
Prefab Assist插件
资料 Prefab文档: http://game.ceeger.com/Manual/Prefabs.html 基础:基于NGUI制作组件的Prefab 前言在一个游戏的UI中,有一些通用的组件,比 ...
for循环与for循环嵌套
今天温习了下分支语句跟for循环,主要讲解了for循环嵌套,这里开始有点迷糊了,整理下思路在做练习 for循环嵌套用我自己的大白话来说就是一个外圈的for程序里面一个套着一个小的for程序,如果在范围 ...
关闭Eclipse回车自动添加大括号
如图:
Json转换类库
20160605 简单的DaTable转Json private string DtConvertJson(DataTable dt , string modelName="") ...
树莓派B+安装archlinux arm版
按Archlinux官网操作而来,如有疑问参照官网:http://archlinuxarm.org/platforms/armv6/raspberry-pi 以我自己安装过程举例,我的SD卡挂载在ub ...

常用数据库高可用和分区解决方案(1) — MySQL篇

常用数据库高可用和分区解决方案(1) — MySQL篇的更多相关文章

随机推荐

热门专题