容器化RDS｜计算存储分离 or 本地存储？

随着交流机会的增多（集中在金融行业，规模都在各自领域数一数二），发现大家对 Docker + Kubernetes 的接受程度超乎想象, 并极有兴趣将这套架构应用到 RDS 领域。数据库服务的需求可以简化为：
实现数据零丢失的前提下，提供可接受的服务能力。
因此存储架构的选型至关重要。到底是选择计算存储分离还是本地存储？
本文就这个问题，从以下几点展开：

回顾：计算存储分离, 本地存储优缺点
MySQL 基于本地存储实现数据零丢失
性能对比
基于 Docker + Kubernetes 的实现

来分享个人理解。

回顾：计算存储分离，本地存储优缺点

还是从计算存储分离说起。

计算存储分离

先说优点：

架构清晰
计算资源 / 存储资源独立扩展
提升实例密度，优化硬件利用率
简化实例切换流程：将有状态的数据下沉到存储层，Scheduler 调度时，无需感知计算节点的存储介质，只需调度到满足计算资源要求的 Node，数据库实例启动时，只需在分布式文件系统挂载 mapping volume 即可。可以显著的提高数据库实例的部署密度和计算资源利用率。

以 MySQL 为例
通用性更好，同时适用于 Oracle、MySQL，详见：《容器化RDS——计算存储分离架构下的"Split-Brain"》。

从部分用户的上下文来看，存在如下客观缺点：

引入分布式存储，架构复杂度加大。一旦涉及到分布式存储的问题，DBA 无法闭环解决。
分布式存储选型：

选择商用，有 Storage Verdor Lock In 风险。

选择开源，大多数用户（包括沃趣）都测试过 GlusterFS 和 Ceph，针对数据库（Sensitive Lantency）场景，性能完全无法接受。

本地存储

如果在意计算存储分离架构中提到的缺点，本地存储可以有效的打消类似顾虑，无需引入分布式存储，避免Storage Verdor Lock In 风险，所有问题都由DBA 闭环解决，但是，需要依赖数据库自有方案实现数据零丢失。

以 MySQL 为例
还会引入类似问题：

物理容量受限于单机容量；
调度更复杂，选定数据库实例的存储类型（比如 SSD）后，一旦该实例发生“failover”，只能调度到拥有 SSD 的物理节点，这导致调度器需要对物理节点“Physical Topology Aware”；
密度难提升，这是“Physical Topology Aware”的副作用；
因数据库的不同方案差异性较大，通用性无法保证。

接下来，进入正题，看一下 MySQL 基于本地存储如何实现数据库零丢失。

MySQL 基于本地存储数据零丢失

最常用的是基于 Replication 模型将数据复制到 MySQL Cluster 中所有成员。
MySQL Master-Slave Replication（类似 Oracle DataGuard）提供了基于 binlog 的数据库层的复制模型，在高并发压力下节点间同步数据速率最快，单位时间内的交易量受其他节点的影响极小，该架构可通过 vip 漂移的方式实现 “failover”。

MySQL Master-Slave Replication
但严格意义上来说，这是基于 binlog 的 Asynchronous Replication 模型，因此集群中所有成员存在数据不一致的可能，在“failover”时无法保证数据零丢失。
可见如果基于 Replication 模型，Synchronous Replication 是实现数据零丢失的前提。
传统的 Synchronous Replication 一般会采用两阶段提交或分布式锁，这会带来如下几个问题：

单位时间内事务能力（TPS）会跟集群成员数量成反比
增加集群成员会显著且无法预期的增加事务响应时间
增加了集群成员数据复制的冲突和死锁的可能性

针对以上问题 Galera Cluster 提出 Certification-based Replication 来解决传统 Synchronous Replication 中遇到的问题，实现如下：

Deferred Update Replication 延迟更新复制
这个流程图中，有几个细节需要分享：

将基于 binlog 改为基于 write-set，write-set 中包含修改的数据，Global Transaction ID（后面简称 GTID）和 Primary Key。

GTID 类似 45eec521-2f34-11e0-0800-2a36050b826b:94530586304

94530586304 为 64-bit 有符号整型，用来表示事务在序列中的位置
将传统的 Synchronous Replication 改为 Deferred Update Replication，并将整个过程大致分解成四个阶段，本地阶段、发送阶段、验证阶段和应用阶段，其中：

本地阶段：乐观执行，在事务 Commit 前，假设该 Transcation 在集群中复制时不会产生冲突。

发送阶段：优化同步时间窗口，除去全局排序并获取 GTID 为同步操作，冲突验证和事务应用都为异步，极大的优化了复制效率。

验证阶段：只有收到该事务的所有前置事务后（不能有 “hole”），该事务和所有未执行的前置事务才能并发验证，不然不能保证 Global Ordering，因此这里需要牺牲效率，引入一定的串行化。

需要等待事务 3

于是就有了 Galera Cluster 在 MySQL 分支中的实现 MariaDB Galera Cluster（简称 MGC）和 Percona Xtradb Cluster（简称 PXC）。

为避免“split-brain”问题，需要至少三节点组成集群，对计算资源和存储资源的容量要求至少增加2倍，会进一步降低资源的部署密度。
越来越多的用户也期望通过该方案实现跨 IDC 多活，那么需要在规划阶段想清楚：
IDC 和数据库节点的拓扑架构，以保证在 1 个 IDC 出问题的情况，集群可以持续提供服务。
首先 IDC（物理或逻辑）最少需要3个，再看看数据库节点数量分别为 3、4、5、6、7 的拓扑关系 :

3 数据库节点：
4 数据库节点：设置权重避免”split-brain” (⅙ + ⅙ ) + ⅓ + ⅓
5 数据库节点：
6 数据库节点：
7 数据库节点 : 可支持两种拓扑关系

同时，还有 MySQL Group www.taohuayuan178.com Replication（简称 MGR）[1]，类似 Galera Cluster：

基于Corosync实现（Totem协议），插件式安装，MySQL 官方原生插件。
集群架构，支持多写（建议单写）
允许少数节点故障，同步延迟较小，保证强一致，数据零丢失
单位时间的交易量受 flow control 影响。

这里还需要提一下 Vitess：

该项目由 Youtube 开源，从文档看功能极为强大，高度产品化。
作为第二个存储类项目（第一个是 Rook，有意思是存储类而不是数据库类）加入 CNCF，目前还处于孵化阶段（incubation-level）。
笔者没有使用经验，也不知道国内有哪些用户，不做评论。

关于 MGR 和 Vitess 网上已有大量介绍，这里不再赘述。

性能对比

在数据零丢失的前提下，看看这几种架构在性能上的对比：

MGR 5.7.17 / PXC 5.7.14-26.17
MGR 5.7.17 / PXC 5.7.17-29.20 www.wanmeiyuele.cn/ MariaDB 10.2.5 RC
本地存储 / 计算存储分离

性能对比 1：MGR 5.7.17 / PXC 5.7.14-26.17

测试背景描述：

MGR 5.7.17 对比 PXC 5.7.14-26.17（基于 Galera 3实现）
负载模型：OLTP Read/Write (RW)
durability：sync_binlog=1，innodb_flush_log_at_trx_commit=1
non-durability：sync_binlog=0，innodb_flush_log_at_trx_commit=2

测试数据 :

来自于 MySQL 官方[2]
测试结果：
在设置 durability 的情况下，MGR 最大吞吐约是PXC 5.7.14-26.17（基于 Galera 3 实现）的3倍，优势明显。
以上数据来自于MySQL 官方，公平起见，再来看看 Percona 在相同负载模型下的测试数据。

性能对比 2：MGR 5.7.17 /www.micheng178.com PXC 5.7.www.hbs90.cn/

测试背景描述：

增加了 MariaDB 参与对比
PXC 升级到 5.7.17-29.20，该版本改进了MySQL write-set 复制层性能[3]。
负载模型：依然使用 OLTP www.365soke.cn Read/Write (RW)
durability：sync_binlog=1
non-durability：sync_binlog=0

测试数据：

设置 durability，数据来自于 Percona[3]

设置 non-durability，数据来自于 Percona[3]
测试结果：
在负载模型相同的情况下（durability 和 non-durability）PXC 5.7.17-29.20 性能与 MGR 5.7.17 不分伯仲。如果使用 PXC，推荐使用 5.7.17-29.20 或以上版本。

性能对比3：本地存储 / 计算存储分离

为了对比本地存储和计算存储分离，专门使用 MGR + 本地存储架构和基于分布式存储的计算存储分离架构做性能对比。
测试结果：
在负载模型相同的情况下，前者比后者 OLTP 下降32.12%，Select 下降5.44%，Update 下降 24.18%，Insert 下降 58.18%，Delete 下降 11.44%。
详细内容可留意 @波多野同学和 @韩杰同学的测试报告，这里不再赘述。

基于 Docker + Kubernetes 的实现

Docker + Kubernetes + MGR / Galera Cluster

在 GitHub 上，可以看到基于 Docker + Kuberetes + PXC 的 demo[4]。需要说明的是，这仅仅是个玩具，离部署到生产环境还有极大差距。
我们已有计划实现满足生产环境的：

Docker + Kubernetes + PXC
Docker + Kubernetes + MGC
Docker + Kubernetes + MGR

并集成到 QFusion 来支持计算存储分离架构和本地存储架构混合部署，架构示意图如下：

目前原型验证阶段已通过，预计2018年Q2发布。

Docker + Kubernetes + Vitess

在 GitHub 上，同样可以看到基于 Docker + Kubernetes 的 demo[5]，有兴趣的同学可以玩一下。
性能只是选型需要考量的一部分，要使用到生产环境或者产品化，实际要考量的因素更多：

运维：部署、备份
弹性：计算存储扩容，集群扩容
高可用：比如 “failover” 的细微差别对业务的影响
容错：比如网络对集群的影响，尤其是在网络抖动或有明显延时的情况下
社区活跃度
……

以现有软硬件的开放程度，各种架构或者产品狭义上的“黑科技”并不多，常常看到的：『xxx 比 xxx 快 xxx 倍』严格来说应该是『xxx 比 xxx 在特定场景 xxx 下快 xxx 倍』。并不存在“一枪毙命”的“Silver Bullet”，只是 Docker + Kubernetes 为混合部署带来可能。哪种更受青睐，拭目以待，用户会是最好的老师。

《人月神话》中提到“No Silver Bullet”，原意是用来论述软件工程领域的生产力问题。
由于软件的复杂性本质，使得真正的银弹并不存在，没有任何一项技术或方法可使软件工程的生产力在十年内提高十倍。

容器化RDS｜计算存储分离 or 本地存储？的更多相关文章

容器化 RDS：你须要了解数据是怎样被写"坏"的
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/M2l0ZgSsVc7r69eFdTj/article/details/79877076 容器化 RD ...
html5 离线存储地理信息与本地存储
搭建离线应用程序 ①服务器设置头信息 : AddType text/cache-manifest .manifest ② html标签加 : manifest=“xxxxx.manifest” ③写m ...
(尚030)Vue_案例_存储数据(localStorage本地存储技术)
当刷新页面时,会变为原来的状态 1.问题:当我刷新是不希望改变原来状态需要缓存我当前的数据 2.究竟是缓存在内存里还是在文件里??? 缓存在文件里,因为浏览器关闭了,内存就没了;而我们需要重新打开浏 ...
kubernetes 降本增效标准指南| 容器化计算资源利用率现象剖析
作者:詹雪娇,腾讯云容器产品经理,目前主要负责腾讯云集群运维中心的产品工作. 张鹏,腾讯云容器产品工程师,拥有多年云原生项目开发落地经验.目前主要负责腾讯云TKE集群和运维中心开发工作. 引言降本增 ...
前端笔记之HTML5&CSS3（上）新特性&音频视频&本地存储&自定义属性
一.HTML5简介 HTML 5 的第一份正式草案已于2008年1月22日公布.HTML5 仍处于完善之中.然而,大部分现代浏览器已经具备了某些 HTML5 支持. 2014年10月29日,万维网联盟 ...
H5本地存储（转）
H5本地存储一.本地存储由来的背景众所周知Html4时代Cookie的大小.格式.存储数据格式等限制,网站应用如果想在浏览器端存储用户的部分信息,那么只能借助于Cookie.但是 ...
HTML5 学习总结（三）——本地存储
一.HTML4客户端存储 B/S架构的应用大量的信息存储在服务器端,客户端通过请求响应的方式从服务器获得数据,这样集中存储也会给服务器带来相应的压力,有些数据可以直接存储在客户端,传统的Web技术中会 ...
HTML5 学习笔记（三）——本地存储
目录一.HTML4客户端存储 1.1.提交表单发送到服务器的信息 1.2.客户端本地存储概要二.localStorage 2.1.添加 2.2.取值 2.3.修改 2.4.删除 2.5.跨页面与跨 ...
HTML5 学习笔记（三）——本地存储(LocalStorage、SessionStorage、Web SQL Database)
一.HTML4客户端存储 B/S架构的应用大量的信息存储在服务器端,客户端通过请求响应的方式从服务器获得数据,这样集中存储也会给服务器带来相应的压力,有些数据可以直接存储在客户端,传统的Web技术中会 ...

随机推荐

javaweb(四)——Http协议(请求头,响应头详解)
一.什么是HTTP协议 HTTP是hypertext transfer protocol(超文本传输协议)的简写,它是TCP/IP协议的一个应用层协议,用于定义WEB浏览器与WEB服务器之间交换数据的 ...
移动性能测试之gemebench安装
越来越多的人从事各种移动端性能测试,但工具和文档的资料却相对较少,这两天需要测试一款APP的性能,就来先简单介绍下gamebench的安装吧! 作为国人来说,使用gamebench还是有相当多的坑点: ...
tpo-08 C2 A strategy for attracting customers
第 1 段 1.Listen to a conversation between a student and a business professor. 听一段学生和教授的对话. 第 2 段 1.So ...
初学Direct X（6）
初学Direct X(6) 这一文本应和上一篇放在一起的,但是上一章写着写着发现对Draw绘制透明位图的方式有感觉了,决定就单写一篇,留作笔记了. 那这一篇是记录如何使用位图表来绘制动画帧,想象一下, ...
Java学习 · 初识面向对象基础一
面向对象基础 1.1面向过程与面向对象的区别面向过程和面向对象二者都是思考问题的方式,再简单的事物时,可以线性思考时使用面向过程,但当事物较为复杂时,只能使用面向对象设计.但二者并不是对立的,在解决 ...
孤荷凌寒自学python第八十六天对selenium模块进行较详细的了解
孤荷凌寒自学python第八十六天对selenium模块进行较详细的了解 (今天由于文中所阐述的原因没有进行屏幕录屏,见谅) 为了能够使用selenium模块进行真正的操作,今天主要大范围搜索资料进行 ...
Android开发-API指南-<uses-permission>
<uses-permission> 英文原文:http://developer.android.com/guide/topics/manifest/uses-permission-elem ...
HADOOP/HDFS Essay
HDFS架构 the core of HADOOP/distributed systems is storeage(HDFS) and resource manager(YARN) for compu ...
C#调用mingw的so库时无法加载DLL###.so 找不到指定的模块
使用C#调用mingw的so,报了c# 无法加载DLL“###.so”,: 找不到指定的程序. (异常来自 HRESULT:0x8007007E)开始以为是dll路径问题,使用全路径确认正确后仍然无法 ...
HADOOP docker(四):安装hive
1.hive简介2.安装hive2.1 环境准备2.1.1 下载安装包2.1.2 设置hive用户的环境变量2.1.3 hive服务端配置文件2.1.4 hive客户端配置文件2.1.4 分发hive ...

容器化RDS｜计算存储分离 or 本地存储？

容器化RDS｜计算存储分离 or 本地存储？的更多相关文章

随机推荐

热门专题