随着交流机会的增多(集中在金融行业,规模都在各自领域数一数二),发现大家对 Docker + Kubernetes 的接受程度超乎想象, 并极有兴趣将这套架构应用到 RDS 领域。数据库服务的需求可以简化为:
实现数据零丢失的前提下,提供可接受的服务能力。
因此存储架构的选型至关重要。到底是选择计算存储分离还是本地存储?
本文就这个问题,从以下几点展开:

  • 回顾:计算存储分离, 本地存储优缺点

  • MySQL 基于本地存储实现数据零丢失

  • 性能对比

  • 基于 Docker + Kubernetes 的实现

来分享个人理解。

回顾:计算存储分离,本地存储优缺点

还是从计算存储分离说起。

计算存储分离

先说优点:

  • 架构清晰

  • 计算资源 / 存储资源独立扩展

  • 提升实例密度,优化硬件利用率

  • 简化实例切换流程:将有状态的数据下沉到存储层,Scheduler 调度时,无需感知计算节点的存储介质,只需调度到满足计算资源要求的 Node,数据库实例启动时,只需在分布式文件系统挂载 mapping volume 即可。可以显著的提高数据库实例的部署密度和计算资源利用率。

    以 MySQL 为例

  • 通用性更好,同时适用于 Oracle、MySQL,详见:《容器化RDS——计算存储分离架构下的"Split-Brain"》。

从部分用户的上下文来看,存在如下客观缺点:

  • 引入分布式存储,架构复杂度加大。一旦涉及到分布式存储的问题,DBA 无法闭环解决。

  • 分布式存储选型:

    选择商用,有 Storage Verdor Lock In 风险。

    选择开源,大多数用户(包括沃趣)都测试过 GlusterFS 和 Ceph,针对数据库(Sensitive Lantency)场景,性能完全无法接受。

本地存储

如果在意计算存储分离架构中提到的缺点,本地存储可以有效的打消类似顾虑,无需引入分布式存储,避免Storage Verdor Lock In 风险,所有问题都由DBA 闭环解决,但是,需要依赖数据库自有方案实现数据零丢失。

以 MySQL 为例
还会引入类似问题:

  • 物理容量受限于单机容量;

  • 调度更复杂,选定数据库实例的存储类型(比如 SSD)后,一旦该实例发生“failover”,只能调度到拥有 SSD 的物理节点,这导致调度器需要对物理节点“Physical Topology Aware”;

  • 密度难提升,这是“Physical Topology Aware”的副作用;

  • 因数据库的不同方案差异性较大,通用性无法保证。

接下来,进入正题,看一下 MySQL 基于本地存储如何实现数据库零丢失。

MySQL 基于本地存储数据零丢失

最常用的是基于 Replication 模型将数据复制到 MySQL Cluster 中所有成员。
MySQL Master-Slave Replication(类似 Oracle DataGuard)提供了基于 binlog 的数据库层的复制模型,在高并发压力下节点间同步数据速率最快,单位时间内的交易量受其他节点的影响极小,该架构可通过 vip 漂移的方式实现 “failover”。

MySQL Master-Slave Replication
但严格意义上来说,这是基于 binlog 的 Asynchronous Replication 模型,因此集群中所有成员存在数据不一致的可能,在“failover”时无法保证数据零丢失。
可见如果基于 Replication 模型,Synchronous Replication 是实现数据零丢失的前提。
传统的 Synchronous Replication 一般会采用两阶段提交或分布式锁,这会带来如下几个问题:

  • 单位时间内事务能力(TPS)会跟集群成员数量成反比

  • 增加集群成员会显著且无法预期的增加事务响应时间

  • 增加了集群成员数据复制的冲突和死锁的可能性

针对以上问题 Galera Cluster 提出 Certification-based Replication 来解决传统 Synchronous Replication 中遇到的问题,实现如下:

Deferred Update Replication 延迟更新复制
这个流程图中,有几个细节需要分享:

  • 将基于 binlog 改为基于 write-set,write-set 中包含修改的数据,Global Transaction ID(后面简称 GTID)和 Primary Key。

    GTID 类似 45eec521-2f34-11e0-0800-2a36050b826b:94530586304

    94530586304 为 64-bit 有符号整型,用来表示事务在序列中的位置

  • 将传统的 Synchronous Replication 改为 Deferred Update Replication,并将整个过程大致分解成四个阶段,本地阶段、发送阶段、验证阶段和应用阶段,其中:

    本地阶段:乐观执行,在事务 Commit 前,假设该 Transcation 在集群中复制时不会产生冲突。

    发送阶段:优化同步时间窗口,除去全局排序并获取 GTID 为同步操作,冲突验证和事务应用都为异步,极大的优化了复制效率。

    验证阶段:只有收到该事务的所有前置事务后(不能有 “hole”),该事务和所有未执行的前置事务才能并发验证,不然不能保证 Global Ordering,因此这里需要牺牲效率,引入一定的串行化。

    需要等待事务 3

于是就有了 Galera Cluster 在 MySQL 分支中的实现 MariaDB Galera Cluster(简称 MGC)和 Percona Xtradb Cluster(简称 PXC)。

为避免“split-brain”问题,需要至少三节点组成集群,对计算资源和存储资源的容量要求至少增加2倍,会进一步降低资源的部署密度。
越来越多的用户也期望通过该方案实现跨 IDC 多活,那么需要在规划阶段想清楚:
IDC 和数据库节点的拓扑架构,以保证在 1 个 IDC 出问题的情况,集群可以持续提供服务。
首先 IDC(物理或逻辑)最少需要3个,再看看数据库节点数量分别为 3、4、5、6、7 的拓扑关系 :

  • 3 数据库节点:

  • 4 数据库节点:设置权重避免”split-brain” (⅙ + ⅙ ) + ⅓ + ⅓

  • 5 数据库节点:

  • 6 数据库节点:

  • 7 数据库节点 : 可支持两种拓扑关系

同时,还有 MySQL Group www.taohuayuan178.com  Replication(简称 MGR)[1],类似 Galera Cluster:

  • 基于Corosync实现(Totem协议),插件式安装,MySQL 官方原生插件。

  • 集群架构,支持多写(建议单写)

  • 允许少数节点故障,同步延迟较小,保证强一致,数据零丢失

  • 单位时间的交易量受 flow control 影响。

这里还需要提一下 Vitess:

  • 该项目由 Youtube 开源,从文档看功能极为强大,高度产品化。

  • 作为第二个存储类项目(第一个是 Rook,有意思是存储类而不是数据库类)加入 CNCF,目前还处于孵化阶段(incubation-level)。

  • 笔者没有使用经验,也不知道国内有哪些用户,不做评论。

关于 MGR 和 Vitess 网上已有大量介绍,这里不再赘述。

性能对比

在数据零丢失的前提下,看看这几种架构在性能上的对比:

  • MGR 5.7.17 / PXC 5.7.14-26.17

  • MGR 5.7.17 / PXC 5.7.17-29.20 www.wanmeiyuele.cn/ MariaDB 10.2.5 RC

  • 本地存储 / 计算存储分离

性能对比 1:MGR 5.7.17 / PXC 5.7.14-26.17

测试背景描述:

  • MGR 5.7.17 对比 PXC 5.7.14-26.17(基于 Galera 3实现)

  • 负载模型:OLTP Read/Write (RW)

  • durability:sync_binlog=1,innodb_flush_log_at_trx_commit=1

  • non-durability:sync_binlog=0,innodb_flush_log_at_trx_commit=2

测试数据 :

来自于 MySQL 官方[2]
测试结果:
在设置 durability 的情况下,MGR 最大吞吐约是PXC 5.7.14-26.17(基于 Galera 3 实现)的3倍,优势明显。
以上数据来自于MySQL 官方,公平起见,再来看看 Percona 在相同负载模型下的测试数据。

性能对比 2:MGR 5.7.17 /www.micheng178.com  PXC 5.7.www.hbs90.cn/

测试背景描述:

  • 增加了 MariaDB 参与对比

  • PXC 升级到 5.7.17-29.20,该版本改进了MySQL write-set 复制层性能[3]。

  • 负载模型:依然使用 OLTP www.365soke.cn Read/Write (RW)

  • durability:sync_binlog=1

  • non-durability:sync_binlog=0

测试数据:

设置 durability,数据来自于 Percona[3]

设置 non-durability,数据来自于 Percona[3]
测试结果:
在负载模型相同的情况下(durability 和 non-durability)PXC 5.7.17-29.20 性能与 MGR 5.7.17 不分伯仲。如果使用 PXC,推荐使用 5.7.17-29.20 或以上版本。

性能对比3:本地存储 / 计算存储分离

为了对比本地存储和计算存储分离,专门使用 MGR + 本地存储架构和 基于分布式存储的计算存储分离架构做性能对比。
测试结果:
在负载模型相同的情况下,前者比后者 OLTP 下降32.12%,Select 下降5.44%,Update 下降 24.18%,Insert 下降 58.18%,Delete 下降 11.44%。
详细内容可留意 @波多野 同学 和 @韩杰 同学的测试报告,这里不再赘述。

基于 Docker + Kubernetes 的实现

Docker + Kubernetes + MGR / Galera Cluster

在 GitHub 上,可以看到基于 Docker + Kuberetes + PXC 的 demo[4]。需要说明的是,这仅仅是个玩具,离部署到生产环境还有极大差距。
我们已有计划实现满足生产环境的:

  • Docker + Kubernetes + PXC

  • Docker + Kubernetes + MGC

  • Docker + Kubernetes + MGR

并集成到 QFusion 来支持计算存储分离架构和本地存储架构混合部署,架构示意图如下:

目前原型验证阶段已通过,预计2018年Q2发布。

Docker + Kubernetes + Vitess

在 GitHub 上,同样可以看到基于 Docker + Kubernetes 的 demo[5],有兴趣的同学可以玩一下。
性能只是选型需要考量的一部分,要使用到生产环境或者产品化,实际要考量的因素更多:

  • 运维:部署、备份

  • 弹性:计算存储扩容,集群扩容

  • 高可用:比如 “failover” 的细微差别对业务的影响

  • 容错:比如网络对集群的影响,尤其是在网络抖动或有明显延时的情况下

  • 社区活跃度

  • ……

以现有软硬件的开放程度,各种架构或者产品狭义上的“黑科技”并不多,常常看到的:『xxx 比 xxx 快 xxx 倍』严格来说应该是『xxx 比 xxx 在特定场景 xxx 下快 xxx 倍』。并不存在“一枪毙命”的“Silver Bullet”,只是 Docker + Kubernetes 为混合部署带来可能。哪种更受青睐,拭目以待,用户会是最好的老师。

《人月神话》中提到“No Silver Bullet”,原意是用来论述软件工程领域的生产力问题。
由于软件的复杂性本质,使得真正的银弹并不存在,没有任何一项技术或方法可使软件工程的生产力在十年内提高十倍。

相关链接

    1. https://dev.mysql.com/doc/refman/5.7/en/group-replication-background.html

    2. http://mysqlhighavailability.com/performance-evaluation-mysql-5-7-group-replication/

    3. https://www.percona.com/blog/2017/04/19/performance-improvements-percona-xtradb-cluster-5-7-17/

    4. https://github.com/kubernetes/kubernetes/tree/master/examples/storage/mysql-galera

    5. https://github.com/kubernetes/kubernetes/tree/master/examples/storage/vitess

容器化RDS|计算存储分离 or 本地存储?的更多相关文章

  1. 容器化 RDS:你须要了解数据是怎样被写"坏"的

    版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/M2l0ZgSsVc7r69eFdTj/article/details/79877076 容器化 RD ...

  2. html5 离线存储 地理信息与本地存储

    搭建离线应用程序 ①服务器设置头信息 : AddType text/cache-manifest .manifest ② html标签加 : manifest=“xxxxx.manifest” ③写m ...

  3. (尚030)Vue_案例_存储数据(localStorage本地存储技术)

    当刷新页面时,会变为原来的状态 1.问题:当我刷新是不希望改变原来状态 需要缓存我当前的数据 2.究竟是缓存在内存里还是在文件里??? 缓存在文件里,因为浏览器关闭了,内存就没了;而我们需要重新打开浏 ...

  4. kubernetes 降本增效标准指南| 容器化计算资源利用率现象剖析

    作者:詹雪娇,腾讯云容器产品经理,目前主要负责腾讯云集群运维中心的产品工作. 张鹏,腾讯云容器产品工程师,拥有多年云原生项目开发落地经验.目前主要负责腾讯云TKE集群和运维中心开发工作. 引言 降本增 ...

  5. 前端笔记之HTML5&CSS3(上)新特性&音频视频&本地存储&自定义属性

    一.HTML5简介 HTML 5 的第一份正式草案已于2008年1月22日公布.HTML5 仍处于完善之中.然而,大部分现代浏览器已经具备了某些 HTML5 支持. 2014年10月29日,万维网联盟 ...

  6. H5本地存储(转)

    H5本地存储  一.本地存储由来的背景         众所周知Html4时代Cookie的大小.格式.存储数据格式等限制,网站应用如果想在浏览器端存储用户的部分信息,那么只能借助于Cookie.但是 ...

  7. HTML5 学习总结(三)——本地存储

    一.HTML4客户端存储 B/S架构的应用大量的信息存储在服务器端,客户端通过请求响应的方式从服务器获得数据,这样集中存储也会给服务器带来相应的压力,有些数据可以直接存储在客户端,传统的Web技术中会 ...

  8. HTML5 学习笔记(三)——本地存储

    目录 一.HTML4客户端存储 1.1.提交表单发送到服务器的信息 1.2.客户端本地存储概要 二.localStorage 2.1.添加 2.2.取值 2.3.修改 2.4.删除 2.5.跨页面与跨 ...

  9. HTML5 学习笔记(三)——本地存储(LocalStorage、SessionStorage、Web SQL Database)

    一.HTML4客户端存储 B/S架构的应用大量的信息存储在服务器端,客户端通过请求响应的方式从服务器获得数据,这样集中存储也会给服务器带来相应的压力,有些数据可以直接存储在客户端,传统的Web技术中会 ...

随机推荐

  1. 13、Java并发编程:线程池的使用

    Java并发编程:线程池的使用 在前面的文章中,我们使用线程的时候就去创建一个线程,这样实现起来非常简便,但是就会有一个问题: 如果并发的线程数量很多,并且每个线程都是执行一个时间很短的任务就结束了, ...

  2. OSG-CompositeViewer

    原文连接地址:http://www.osgchina.org/index.php?Itemid=490&id=134:usecompositiv&option=com_content& ...

  3. Git 新建文件并提交

    1.创建一个readme.txt. cd /home/cyp/learngit touch readme.txt vim readme.txt 编写内容, wq 保存推出 2.提交步骤 2.1  gi ...

  4. Python入门编程中的变量、字符串以及数据类型

    //2018.10.10 字符串与变量 1. 在输出语句中如果需要出现单引号或者双引号,可以使用转义符号\,它可以将其中的歧义错误解释化解,使得输出正常: 2. 对于python的任何变量都需要进行赋 ...

  5. Python中一些糟糕的语法!你遇到过吗?还知道那些?

    Python是一门语法优雅,功能强大,开发效率高,应用领域广泛的解释性语言. 其有非常多的优点,但是也并不是完美的,除了大家都知道的执行速度不够快,Python2和Python3的兼容问题,以及GIL ...

  6. 【wx:for】小程序列表渲染的使用说明

    wx:for 控制属性绑定一个数组,即可使用数组中各项的数据重复渲染该组件. 默认数组的当前项的下标变量名默认为 index,数组当前项的变量名默认为 item,即: {{index}} . {{it ...

  7. js写的数码时钟,在“最小化”浏览器 或者 “切换网页”是动画效果好像不对

    一.问题 在“最小化”浏览器 或者 “切换网页”是动画效果不对,不知道哪里出了问题???是不是”最小化“时网页定时器关掉了,还是其他什么原因啊 ???? 二.HTML代码如下 <div id=& ...

  8. 关于@media不生效的问题和meta总结

    1:之前做的是两套页面.现在改成响应式布局.发现加上 @media only screen and (max-width: 500px) {    .gridmenu {        width:1 ...

  9. String和StringBuffer以及StringBuilder的区别

    今天在读<java编程思想>的时间,在看到String和StringBuffer以及StringBuffer这三个类的时间,做一个随笔小结,为自己的面试做好准备! 一:String,Str ...

  10. CsvHelper文档-2读

    CsvHelper文档-2读 这个库默认不需要做任何设置就可以很容易的使用它.如果你的类属性名称直接匹配csv的标题名称,那么可以按照下面的实例来用: (以下所有的代码都需要引用using csvhe ...