几个 Ceph 性能优化的新方法和思路（2015 SH Ceph Day 参后感）

一周前，由 Intel 与 Redhat 在10月18日联合举办了 Shanghai Ceph Day。在这次会议上，多位专家做了十几场非常精彩的演讲。本文就这些演讲中提到的 Ceph性能优化方面的知识和方法，试着就自己的理解做个总结。

0. 常规的 Ceph 性能优化方法

（1）. 硬件层面

硬件规划：CPU、内存、网络
SSD选择：使用 SSD 作为日志存储
BIOS设置：打开超线程（HT）、关闭节能、关闭 NUMA 等

（2）. 软件层面

Linux OS：MTU、read_ahead 等
Ceph Configurations 和 PG Number 调整：使用 PG 计算公式（Total PGs = (Total_number_of_OSD * 100) / max_replication_count）计算。
CRUSH Map

更多信息，可以参考下面的文章：

1. 使用分层的缓存层 - Tiered Cache

显然这不是一个 Ceph 的新特性，在会议上有这方面的专家详细地介绍了该特性的原理及用法，以及与纠错码方式结合的细节。

简单概括：

每一个缓存层次（tiered cache）使用一个 RADOS pool，其中 cache pool 必须是拷贝（replicated）类型，而 backing pool 可以是拷贝类型也可以是纠错码类型。
在不同的缓存层次，使用不同的硬件介质，cache pool 使用的介质必须比 backing pool 使用的介质速度快：比如，在 backing pool 使用一般的存储介质，比如常规的HDD或者 SATA SDD；在 cache pool 使用快速介质，比如 PCIe SDD。
每一个 tiered cache 使用自己的 CRUSH rules，使得数据会被写入到指定的不同存储介质。
librados 内在支持 tiered cache，大多数情况下它会知道客户端数据需要被放到哪一层，因此不需要在 RDB，CephFS，RGW 客户端上做改动。
OSD 独立地处理数据在两个层次之间的流动：promotion（HDD->SDD）和 eviction（SDD -> HDD），但是，这种数据流动是代价昂贵（expensive）和耗时的（take long time to “warm up”）。

2. 使用更好的 SSD - Intel NVM Express （NVMe） SSD

在 Ceph 集群中，往往使用 SSD 来作为 Journal（日志）和 Caching（缓存）介质，来提高集群的性能。下图中，使用 SSD 作为 Journal 的集群比全 HDD 集群的 64K 顺序写速度提高了 1.5 倍，而 4K 随机写速度提高了 32 倍。

而Journal 和 OSD 使用的 SSD 分开与两者使用同一块SSD，还可以提高性能。下图中，两者放在同一个 SATA SSD 上，性能比分开两块 SSD （Journal 使用 PCIe SSD，OSD 使用 SATA SSD），64K 顺序写速度下降了 40%，而 4K 随机写速度下降了 13%。

因此，更先进的 SSD 自然能更加提高Ceph 集群的性能。SSD 发展到现在，其介质（颗粒）基本经过了三代，自然是一代比一代先进，具体表现在密度更高（容量更大）和读写数据更快。目前，最先进的就是 Intel NVMe SSD，它的特点如下：

为 PCI-e 驱动器定制的标准化的软件接口
为 SSD 定制（别的是为 PCIe 所做的）
SSD Journal : HDD OSD 比例可以从常规的 1:5 提高到 1:20
对全 SSD 集群来说，全 NVMe SSD 磁盘Ceph 集群自然性能最好，但是它造价太高，而且性能往往会受限于网卡/网络带宽；所以在全SSD环境中，建议的配置是使用 NVMe SSD 做 Journal 而使用常规 SSD 做 OSD 磁盘。

同时，Intel SSD 还可以结合 Intel Cache Acceleration Software 软件使用，它可以智能地根据数据的特性，将数据放到SSD或者HDD：

测试：

测试配置：使用 Intel NVMe SSD 做 Cache，使用 Intel CAS Linux 3.0 with hinting feature （今年年底将发布）
测试结果：5% 的 cache，使得吞吐量（ThroughOutput）提交了一倍，延迟（Latency）降低了一半

3. 使用更好的网络设备 - Mellanox 网卡和交换机等

3.1 更高带宽更低延迟的网卡设备

Mellanox 是一家总部在以色列的公司，全球约 1900 名员工，专注高端网络设备，2014 年revenue 为￥463.6M 。（今天正好在水木BBS上看到该公司在中国的分公司待遇也是非常好）。其主要观点和产品：

Ceph 的 Scale Out 特性要求用于 replicaiton、sharing 和 metadata （文件）的网络吞吐量更高、延迟更低
目前 10 GbE（万兆以太网络）已经不能满足高性能Ceph 集群的要求（基本上 20个 SSD 以上的集群就不能满足了），已经开始全面进入 25， 50， 100 GbE 时代。目前，25GbE 性价比比较高。
大部分网络设备公司使用的是高通的芯片，而 Mellanox 使用自研的芯片，其延迟（latency）是业界最低的（220ns）
Ceph 高速集群需要使用两个网络：public network 用于客户端访问，Cluster network 用于 heartbeat、replication、recovery 和 re-balancing。
目前 Ceph 集群广泛采用 SSD，而快速的存储设备就需要快速的网络设备

实际测试：

（1）测试环境：Cluster network 使用 40GbE 交换机，Public network 分布使用 10 GbE 和 40GbE 设备做对比

（2）测试结果：结果显示，使用 40GbE 设备的集群的吞吐量是使用 10 GbE 集群的 2.5 倍，IOPS 则提高了 15%。

目前，已经有部分公司使用该公司的网络设备来生产全SSD Ceph 服务器，比如，SanDisk 公司的 InfiniFlash 就使用了该公司的 40GbE 网卡、2个 Dell R720 服务器作为 OSD 节点、512 TB SSD，它的总吞吐量达到 71.6 Gb/s，还有富士通和Monash 大学。

3.2 RDMA 技术

传统上，访问硬盘存储需要几十毫秒，而网络和协议栈需要几百微妙。这时期，往往使用 1Gb/s 的网络带宽，使用 SCSI 协议访问本地存储，使用 iSCSI 访问远端存储。而在使用 SSD 后，访问本地存储的耗时大幅下降到几百微秒，因此，如果网络和协议栈不同样提高的话，它们将成为性能瓶颈。这意味着，网络需要更好的带宽，比如40Gb/s 甚至 100Gb/s；依然使用 iSCSI 访问远端存储，但是 TCP 已经不够用了，这时 RDMA 技术应运而生。RDMA 的全称是 Remote Direct Memory Access，就是为了解决网络传输中服务器端数据处理的延迟而产生的。它是通过网络把资料直接传入计算机的存储区，将数据从一个系统快速移动到远程系统存储器中，而不对操作系统造成任何影响，这样就不需要用到多少计算机的处理功能.它消除了外部存储器复制和文本交换操作，因而能腾出总线空间和CPU 周期用于改进应用系统性能. 通用的做法需由系统先对传入的信息进行分析与标记，然后再存储到正确的区域。

这种技术上，Mellanox 是业界领先者。它通过 Bypass Kenerl 和 Protocol Offload 的实现，提供高带宽、低CPU占用和低延迟。目前，该公司在 Ceph 中实现了 XioMessager，使得Ceph 消息不走 TCP 而走 RDMA，从而得以提高集群性能，该实现在 Ceph Hammer 版本中提供。

http://ir.mellanox.com/releasedetail.cfm?ReleaseID=919461

What is RDMA?

Mellanox Benchmarks Ceph on 100Gb Ethernet

RDMA 百度百科

<2015/11/26 更新>

之前不熟悉这个公司，一个原因是其名字实在太长太难记了。今天看到西瓜哥的微信，才发现这个公司的Infiniband 交换机和 HBA 卡在美国数据中心里面的领导地位。唯一能和它竞争的就是Intel。

4. 使用更好的软件 - Intel SPDK 相关技术

4.1 Mid-Tier Cache 方案

该方案在客户端应用和 Ceph 集群之间添加一个缓存层，使得客户端的访问性能得以提高。该层的特点：

对 Ceph 客户端提供 iSCSI/NVMF/NFS 等协议支持；
使用两个或者多个节点提高可靠性；
添加了Cache，提高访问速度
使用 write log 保证多节点之间数据一致性
使用 RBD 连接后端Ceph集群

4.2 使用 Intel DPDK 和 UNS 技术

Intel 使用该技术，在用户空间（user space）实现了全 DPDK 网卡及驱动、TCP/IP协议栈（UNS）、 iSCSI Target，以及 NVMe 驱动，来提高Ceph的 iSCSI 访问性能。好处：

与 Linux*-IO Target (LIO) 相比，其 CPU overhead 仅为 1/7。
用户空间的 NVMe 驱动比内核空间的 VNMe 驱动的 CPU 占用少 90%

该方案的一大特点是使用用户态网卡，为了避免和内核态的网卡冲突，在实际配置中，可以通过 SRIOV 技术，将物理网卡虚拟出多个虚拟网卡，在分配给应用比如OSD。通过完整地使用用户态技术，避免了对内核版本的依赖。

目前，Intel 提供 Intel DPDK、UNS 、优化后的 Storage 栈作为参考性方案，使用的话需要和 Intel 签订使用协议。用户态NVMe驱动已经开源。

4.3 CPU 数据存放加速 - ISA-L 技术

该代码库（code libaray）使用 Intel E5-2600/2400 和 Atom C2000 product family CPU 的新指令集来实现相应算法，最大化地利用CPU，大大提高了数据存取速度，但是，目前只支持单核 X64 志强和 Atom CPU。在下面的例子中，EC 速度得到几十倍提高，总体成本减少了百分之25到30.

5. 使用系统的工具和方法 - Ceph 性能测试和调优工具汇总

本次会议上，还发布了若干Ceph 性能测试和调优工具。

5.1 Intel CeTune

Intel的该工具可以用来部署、测试、分析和调优（deploy, benchmark, analyze and tuning）Ceph 集群，目前它已经被开源，代码在这里。主要功能包括：

用户可以对 CeTune 进行配置，使用其 WebUI
部署模块：使用 CeTune Cli 或者 GUI 部署 Ceph
性能测试模块：支持 qemurbd, fiorbd, cosbench 等做性能测试
分析模块：iostat, sar, interrupt, performance counter 等分析工具
报告视图：支持配置下载、图标视图

5.2 常见的性能测试和调优工具

Ceph 软件栈（可能的性能故障点和调优点）：

可视性性能相关工具汇总：

Benchmarking 工具汇总：

调优工具汇总：

6. 综合评价

上面的几种方法，与传统的性能优化方法相比，部分具有其创新性，其中，

更好的硬件，包括SSD和网络设备，自然能带来更好的性能，但是成本也相应增加，而且带来的性能优化幅度具有不一致性，因此，需要在应用场景、成本、优化效果之间做综合权衡；
更好的软件，目前大都还没有开源，而且大都还处于测试状态，离在生产环境中使用尚有距离，而且都和 Intel 的硬件紧密绑定；
更全面的方法，则是广大 Ceph 专业人员需要认真学习、使用到的，在平时的使用中能够更高效的定位性能问题并找到解决方法；
Intel 在 Ceph 上的投入非常大，客户如果有Ceph集群性能问题，还可以把相关数据发给他们，他们会提供相应建议。

Ceph性能优化的更多相关文章

几个 Ceph 性能优化的新方法和思路（2015 SH Ceph Day 参后感）
一周前,由 Intel 与 Redhat 在10月18日联合举办了 Shanghai Ceph Day.在这次会议上,多位专家做了十几场非常精彩的演讲.本文就这些演讲中提到的 Ceph性能优化方面的知 ...
Ceph性能优化总结(v0.94)
优化方法论做任何事情还是要有个方法论的,“授人以鱼不如授人以渔”的道理吧,方法通了,所有的问题就有了解决的途径.通过对公开资料的分析进行总结,对分布式存储系统的优化离不开以下几点: 1. 硬件层面 ...
01.SQLServer性能优化之----强大的文件组----分盘存储
汇总篇:http://www.cnblogs.com/dunitian/p/4822808.html#tsql 文章内容皆自己的理解,如有不足之处欢迎指正~谢谢前天有学弟问逆天:“逆天,有没有一种方 ...
03.SQLServer性能优化之---存储优化系列
汇总篇:http://www.cnblogs.com/dunitian/p/4822808.html#tsql 概述:http://www.cnblogs.com/dunitian/p/60413 ...
Web性能优化：What? Why? How?
为什么要提升web性能? Web性能黄金准则:只有10%~20%的最终用户响应时间花在了下载html文档上,其余的80%~90%时间花在了下载页面组件上. web性能对于用户体验有及其重要的影响,根据 ...
Web性能优化：图片优化
程序员都是懒孩子,想直接看自动优化的点:传送门我自己的Blog:http://cabbit.me/web-image-optimization/ HTTP Archieve有个统计,图片内容已经占到 ...
C#中那些[举手之劳]的性能优化
隔了很久没写东西了,主要是最近比较忙,更主要的是最近比较懒...... 其实这篇很早就想写了工作和生活中经常可以看到一些程序猿,写代码的时候只关注代码的逻辑性,而不考虑运行效率其实这对大多数程序猿 ...
JavaScript性能优化
如今主流浏览器都在比拼JavaScript引擎的执行速度,但最终都会达到一个理论极限,即无限接近编译后程序执行速度. 这种情况下决定程序速度的另一个重要因素就是代码本身. 在这里我们会分门别类的介绍J ...
02.SQLServer性能优化之---牛逼的OSQL----大数据导入
汇总篇:http://www.cnblogs.com/dunitian/p/4822808.html#tsql 上一篇:01.SQLServer性能优化之----强大的文件组----分盘存储 http ...

随机推荐

牛客网多校训练第一场 I - Substring（后缀数组 + 重复处理）
链接: https://www.nowcoder.com/acm/contest/139/I 题意: 给出一个n(1≤n≤5e4)个字符的字符串s(si ∈ {a,b,c}),求最多可以从n*(n+1 ...
9、SpringBoot-CRUD国际化
1).编写国际化配置文件: 2).使用ResourceBundleMessageSource管理国际化资源文件 3).在页面使用fmt:message取出国际化内容步骤: 1).编写国际化配置文件, ...
SpringBoot实战(十二)之集成kisso
关于kisso介绍,大家可以参考官方文档或者是我的博客:https://www.cnblogs.com/youcong/p/9794735.html 一.导入maven依赖 <project x ...
【题解】洛谷P2661 [NOIP2015TG] 信息传递
题目来源:洛谷P2661 思路运用并查集查找图中最小环的长度如果A传递信息给B 就从A加一条边指向B 并更新A的父节点从A到父节点的路径长度为B到父节点的路径长度+1 如果有两个点的祖先相同而且 ...
【题解】洛谷P4145 花神游历各国（线段树）
洛谷P4145:https://www.luogu.org/problemnew/show/P4145 思路这道题的重点在于sqrt(1)=1 一个限制条件与正常线段树不同的是区间修改为开方那么 ...
OC和C语言比较
说明:比较记忆相对来说更容易熟练记得牢固,理解了C语言相对来说OC也不太难,OC是C语言的扩展,向下兼容C语言. 源文件后缀名比较 1.C语言源文件 .h:头文件 .c:源文件 .o:目标文件 .ou ...
IE下内容居中
ie8下调了很长时间的居中问题,加一个body {text-align:center;},居然解决了.. 参考解决答案:*html * {margin:0px; padding:0;} 然后在盒子里b ...
使用java原生API模拟请求下载文件
/** * * @param urlPath * 下载路径 * @param saveDir * 下载存放目录 * @return 返回下载文件 * @throws Exception */ publ ...
【oracle笔记2】约束
约束 *约束是添加在列上的,用来约束列的. 1. 主键约束(唯一标识) ***非空*** ***唯一*** ***被引用***(外键时引用主键) *当表的某一列被指定为主键后,该列就不能为空,不能有重 ...
严重: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.LifecycleException: Failed to start component
自己写了个最简单的springMVC项目练练手,没有用maven,在WebContent中新建了lib文件夹,将jar包复制到这里面,然后add to build path到项目里. 启动Tomcat ...

Ceph性能优化