Cassandra架构、设计（集群&表）和性能报告

系统架构：

Ｃａｓｓａｎｄｒａ是一套开源分布式Ｎｏ－ＳＱＬ数据库系统，基于一致性哈希算法的Ｐ２Ｐ环形结构。这种结构各节点功能完全相同，可灵活添加节点来完成系统的扩充或删除节点，且无需大规模转移数据，同时彻底避免系统因单点故障

导致的不稳定性；每个节点通过Ｇｏｓｓｉｐ机制进行消息同步；每个数据项都会被复制到Ｎ个节点（Ｎ是通过参数配置的副本因子），系统利用数据

的复制机将存储在各节点上的数据复制到其他节点上，实现了数据的高度可获得性与安全性。

数据模型：

Ｃａｓｓａｎｄｒａ使用宽列存储模型，每行数据记录是以Ｋｅｙ－Ｖａｌｕｅ形式进行存储，其中Ｋｅｙ为唯一标识。每个Ｋｅｙ－Ｖａｌｕｅ其中的Ｖａｌｕｅ也称为Ｃｏｌｕｍｎ，作为一个三元组，包含有

ＣｏｌｕｍｎＮａｍｅ、Ｃｏｌｕｍｎ　Ｖａｌｕｅ与ｔｉｍｅｓｔａｍｐ；每个ＣＦ由一个Ｋｅｙ及其对应的若干个Ｃｏｌｕｍｎ标识组成。一个

ｋｅｙｓｐａｃｅ包含若干个ＣＦ，类似关系型数据库中一个

ｄａｔａｂａｓｅ可有多个ｔａｂｌｅ。

下图为一个Ｃｏｌｕｍｎ型数据模型。

CPA理论：

ＮｏＳＱＬ典型遵循由Ｅｒｉｃ　Ｂｒｅｗｅｒ提出的ＣＡＰ理论，依据此理论，在一个大规模的分布式数据系统中，有三个需求是彼此循环依赖的，一致性（ｃｏｎｓｉｓｔｅｎｃｙ）、可用性（ａｖａｉｌａｂｉｌｉｔｙ）、分区耐受性（ｐａｒｔｉｔｉｏｎ　ｔｏｌｅｒａｎｃｅ）。

一致性：对所有数据库客户端使用同样查询都可得到相同的数据；

可用性：所有数据库客户端都可读写数据；

分区耐受性：数据库分散到多个服务器上，即使发生网络故障，仍可提供服务。

ＣＡＰ理论可简单描述为：

一个分布式系统不能同时满足以上三个特性，最多只能同时满足两个。

Ｃａｓｓａｎｄｒａ主要支持可用性和分区耐受性。

在Ｃａｓｓａｎｄｒａ中，数据具备最终一致性，集群整体的完全

可用性。

存储机制

Ｃａｓｓａｎｄｒａ依赖本地的文件系统通过内存与磁盘的双重存储机制来保证数据的持久性。

Ｃａｓｓａｎｄｒａ有三个重要的数据结构，记录于内存

的Ｍｅｍｔａｂｌｅ，保存在磁盘中的Ｃｏｍｍｉｔ　Ｌｏｇ和

ＳＳＴａｂｌｅ。

Ｍｅｍｔａｂｌｅ记录最近的修改，而ＳＳＴａｂｌｅ记录着数据库所承载的绝大部分数据。通常情况下，一个Ｃａｓｓａｎｄｒａ表会对应着一个

Ｍｅｍｔａｂｌｅ和多个ＳＳＴａｂｌｅ。

Ｃａｓｓａｎｄｒａ接收到客户端发送来的数据，首先将写操作记录到位于磁

盘的ＣｏｍｍｉｔＬｏｇ中；上述操作成功后，更新位于内存中的Ｍｅｍｔａｂｌｅ数据结构。持续的写入数据，使得Ｍｅｍｔａｂｌｅ逐渐增长，当其数据量到达某个阈值时，Ｃａｓｓａｎｄｒａ的数据迁移被触发，一方面将

Ｍｅｍｔａｂｌｅ刷写到本地磁盘上成为永久的ＳＳＴａｂｌｅ，另一方面将ＣｏｍｍｉｔＬｏｇ中的写入记录移除。对于读操作，客户端先查询

Ｍｅｍｔａｂｌｅ中的数据，若无法获取所需信息，则检索本地磁盘。

Ｃａｓｓａｎｄｒａ会定期执行压紧ｃｏｍｐａｃｔ操作，将同一条数据不同的版本进行合并，过时数据也会在此过程中被删除；分层数据压缩，有效减少数据体积

及磁盘Ｉ／Ｏ。

系统设置（集群）

针对实时气象数据存储系统，用户对该系统读取的性能需求远远高于写入数据。通过对副本数进行合理设置，可分散读取压力。对于５节点集群，将副本数设置为３；

Ｒｏｗ分区模式：

采用自动分区方式，使不同的Ｒｏｗ　Ｋｅｙ均匀分布在各节点上，有利于数据读取压力的分散。

Ｃａｓｓａｎｄｒａ表设计

作为典型的非结构化数据，气象数据可以由多维索引来确定一个唯一的数据。

业务用户常见的操作包括“最新数据”“左右翻页”“上下翻页”等。

数据表

根据不同数据类型建立相应数据表，用于存储数据内容，包括：

ＥＣＭＷＦＨＲ（高分辨率数值预报产品）、

ＳＡＴＥＬＬＩＴＥ（卫星资料）、

ＵＰＰＥＲＡＩＲ（高空站点资料）、

ＳＩＮＧＬＥＲＡＤＡＲ（雷达资料）等。

以“ Ｔ６３９ ”为例说明数据表结构（表１）。

建表语句：ＣＲＥＡＴＥ　ＴＡＢＬＥ "Ｔ６３９ "

（ "ｄａｔａＰａｔｈ " ｔｅｘｔ，ｃｏｌｕｍｎ１ｔｅｘｔ，

ｖａｌｕｅ　ｂｌｏｂ，ＰＲＩＭＡＲＹ　ＫＥＹ（" ｄａｔａＰａｔｈ " ，

ｃｏｌｕｍｎ１））；

层次表

用于存储所有模式或实况的层次信息，表名为ｌｅｖｅｌ；用户在客户端进行上下翻页操作，从ｌｅｖｅｌ表中获取当前层次的上一层或下一层信息；利用层次表与数据表，可检索到不同层次的数据（表２）。

建表语句：ＣＲＥＡＴＥ　ＴＡＢＬＥ　ｌｅｖｅｌ（

"ｄａｔａＰａｔｈ " ｔｅｘｔ，ｃｏｌｕｍｎ１ｉｎｔ，ｖａｌｕｅ　ｉｎｔ，ＰＲＩＭＡＲＹＫＥＹ（" ｄａｔａＰａｔｈ " ，ｃｏｌｕｍｎ１））；

最新时刻表

用于存储各类数据的最新时刻信息，表名为ｌａｔｅｓｔｄａｔａｔｉｍｅ。利用最新时刻表，用户能通过客户端快速查找到最新数据文件名。用户根据完整索引（文件路径与最新数据文件名），例：Ｔ６３９／ＷＩＮＤ／５００／１７０３０１０８．０００，即可在“数据表”中获取到对应数据（表３）。

建表语句：ＣＲＥＡＴＥ　ＴＡＢＬＥ　ｌａｔｅｓｔｄａｔａｔｉｍｅ

（ " ｄａｔａＰａｔｈ " ｔｅｘｔ，ｃｏｌｕｍｎ１ｔｅｘｔ，ｖａｌｕｅ　ｔｅｘｔ，ＰＲＩＭＡＲＹ　ＫＥＹ（" ｄａｔａＰａｔｈ " ，ｃｏｌｕｍｎ１））；

存储系统性能测试

测试环境

选用５台相同配置的服务器用来搭建分布式存储系统。服务器操作系统为Ｒｅｄ　Ｈａｔ　Ｅｎｔｅｒ－ｐｒｉｓｅ　Ｌｉｎｕｘ　Ｓｅｒｖｅｒ　ｒｅｌｅａｓｅ　７．１，处理器参数为Ｉｎｔｅｌ（Ｒ）Ｘｅｏｎ（Ｒ）ＣＰＵ　Ｅ５－２６２０ｖ２＠２．１０ＧＨｚ，主频为２．１ＧＨｚ；内存大小为２５６ＧＢ；６块４ＴＢ　ＳＡＴＡ硬盘；服务器间通过万兆光纤连接。Ｃａｓｓａｎｄｒａ数据库版本为２．２．５。

高可用性测试

由５个节点所组成分布式存储系统，其结构上具有如下特点。

（１）服务器双网卡绑定，即将两个物理网卡虚拟成一个逻辑网卡；提升服务器之间的传输带宽，实现网卡冗余。

（２）用于集群内部数据交换的两台万兆光纤交换机，采取级联方式，可互为备份。

（３）６块ＳＡＴＡ硬盘，其中２块做ＲＡＩＤ１，安装操作系统及软件；另外４块４ＴＢ用作两个ＲＡＩＤ０，用于存储数据。

（４）服务器集群为环形结构，没有ｍａｓｔｅｒ节点，各节点功能完全一样。

按照表４中内容，对系统的基础设施层（包括网络设备、存储设备等）、软件层（数据库）进行测试，来验证系统的高可用性；从表中结论可知，系统中用于内部数据交换的光纤或网卡、交换机及任一Ｃａｓｓａｎｄｒａ服务器故障，均不影响ＭＩＣＡＰＳ４客户端调取数据。

读取性能测试

通过读取数据的脚本文件（可获取数据字节数信息，表５中ＥＣＭＷＦ＿ＨＲ／ＴＭＰ／１００目录下数据字节数为１３２６４２字节，ＳＡＴＥＬＬＩＴＥ／

ＦＹ２Ｅ／Ｌ１／ＩＲ３／ＥＱＵＡＬ下数据字节数为５５４９４４字节，

Ｔ６３９／ＷＩＮＤ／１００下数据字节数为１４４９０５２字节），模拟单用户及５０用户、１００用户客户端对同一类型数据进行读取，共分３组，即对三种不同类型的数据进行测试，测试性能见表５，注意测试结果包含网络传输时间。

从数据读取的测试结果可以看出：

（１）５０用户并发和１００用户并发客户端同时对同一类型数据进行读取的时间与单用户读取时间相当。以Ｔ６３９／ＷＩＮＤ／１００为例，５０用户并发和１００用户并发与单用户读取相关数据所花费的平均时间均在２０ｍｓ左右。

（２）在１００用户并发情况下，从数据库中调取数据所消耗的时间均以ｍｓ量级为单位（包含网络传输时间），时间远远小于在ｓａｍｂａ服务器上读取数据的时间。

（３）数据读取时间和单个数据的字节数近似成正比，即单个数据文件字节数越大，读取数据所花费的时间则越长。

结语

利用Ｃａｓｓａｎｄｒａ分布式数据库搭建的存储环境，提高了实时气象数据存储效率与检索速度，通过统一的数据平台，实现了运维人员对该系统“零”维护。通过在实际业务环境中进行测试，验证了该分布式数据环境的高可用性；以毫秒级为单位的数据读取时间，能很好地满足业务对数据时效性的需求。