作者:田寄远

JCQ 全名 JD Cloud Message Queue,是京东云自研、具有 CloudNative 特性的分布式消息中间件。 JCQ 设计初衷即为适应云特性的消息中间件;具有高可用、数据可靠性、副本物理隔离、服务自治、健康状态汇报、少运维或无运维、容器部署、弹性伸缩、租户隔离、按量付费、云账户体系、授权等特性。

演进过程

2017 年中开始开发 JCQ 1.0 版本,2018 年 11 月正式 GA 上线对外售卖,1.0 版本中 Topic 受限于单台服务器限制,满足不了用户超大规格 topic 的需求。

2019 年 4 月 JCQ 2.0 正式上线,主要新增特性是 topic 扩缩容能力、热点 Topic 在 Broker 间的负载均衡、热点 Broker 的流量转移。

2019 年 7 月 JCQ 做了一次大的架构演进 —— 计算存储分离,大版本号为 JCQ 3.0, 于 2019 年底上线。计算存储分离对架构带来了比较明显的好处,解决了日常遇到许多的痛点问题。下文详细介绍此次演进带来的好处及解决的痛点问题。

升级影响范围尽可能小

在 JCQ2.0 中计算模块与存储模块处于同一个进程,升级计算模块势必将存储模块一起升级。而存储模块重启是比较重的动作,需要做的工作有:加载大量数据、进行消息数据与消息索引数据比对、脏数据截断等操作。往往修复计算模块一个小的 Bug,就需要做上述非常重的存储模块重启。而在现实工作中,大部分升级工作都是由于计算模块功能更新或 Bugfix 引起的。

为了解决这个问题, JCQ3.0 将计算模块、存储模块独立部署,之间通过 RPC 调用。各自升级互不影响。如下图所示:

计算节点 Broker 只负责生产消息、推送消息、鉴权、认证、限流、拥塞控制、客户端负载均衡等业务逻辑,属于无状态服务。比较轻量,升级速度快。

存储节点 Store 只负责数据写入、副本同步、数据读取。因为业务逻辑简单,功能稳定后,除优化外基本无需改动,也就无需升级。

成本降低

JCQ 是共享消息中间件,用户申请的是不同规格 TPS 的 Topic,并不感知 cpu、memory、disk 等硬件指标。 所以,JCQ 服务方需要考虑如何合理的使用这些硬件指标。

JCQ 是容器部署,有多种类型的组件,这些组件对硬件的需求也是多样化的,其中对资源消耗最多的是计算模块和存储模块。在 JCQ2.0 版本计算模块和存储模块部署在一起,选择机型时要兼顾 cpu、memory、disk 等指标,机型要求单一,很难与其他产品线混合部署。即使是同一资源池,也存在因为调度顺序,造成调度失败的情况。如一台机器剩余资源恰好能调度一个需要大规格磁盘的 A 容器,但是因为 B 容器先被调度到这台机器上,剩余资源就不够创建一个 A 容器,那这台机器上的磁盘就浪费了。

JCQ3.0 后,计算节点 Broker,与存储节点 Store 独立部署。这两个组件可以各自选择适合自己业务的机型,部署在相应资源池中;最终,可以做到与其他产品混合部署,共用资源池水位,而不用独自承担资源水位线。

架构改进带来的成本降低

JCQ3.0 中计算节点 Broker 是无状态服务,主从切换比较轻量,能在秒级完成故障转移;且部署时考虑了物理设备反亲和,如跨 Rack、跨 AZ 部署。所以,可以在可用性、资源成本之间做一定的权衡;如可以使用 M:1 方式做高可用冷备,而不必 1:1 的比例高可用冷备,进而达到节省硬件资源的目的。

解决 Raft 性能问题

JCQ 1.0 设计之初就采用 Raft 算法,来解决服务高可用、数据一致性的问题。Message Log 与 Raft Log 有很多共同的特性,如顺序写、随机读、末端热数据。所以,直接用 Raft Log 当成 Message Log 是非常合适的。

在 JCQ 演进中我们也发现了 Raft 本身的一些性能问题,如顺序复制、顺序 commit、有的流程只能用单线程处理等限制。针对这些问题,最直接有效的办法就是扩展 Raft 的数目、扩展单线程流程数目,在一定数量级内,并发能力随着 Raft Group 数目的增长,呈线性增长关系,称之 MultiRaft,如下图所示。

****

上图中,每个 StoreNode 节点是一个独立进程,内部有四组逻辑 RaftGroup(橙色的节点为 RaftGroup 的 Leader),各组 RaftGroup 之间是并行关系,可以做到 Group 间并行复制、并行 commit。

由于大量使用了 NIO,这些 RaftGroup 之间可以共享通信线程池,扩充 RaftGroup 数目并不会带来线程资源线性增长的问题。

快速故障恢复、轻量的负载均衡

在 JCQ3.0 中,Broker 为轻量的无状态服务,在主从切换、故障恢复方面相对 2.0 更为轻量,本身能更快的恢复对外服务能力。

同时,Broker 将 Producer、Consumer 的连接请求,抽象为 PubTask 和 SubTask,后文统称为 Task。Task 的概念非常轻量,仅描述 Client 与 Broker 的对应关系,由元数据管理器 Manager 统一调度、管理。转移 Task 只需要修改 Task 的内容,客户端重新连接新 Broker 即可。

一般来说,Broker 的主要瓶颈在于网络带宽。Broker 定期统计网络入口流量与出口流量,并上报给管理节点 Manager。Manager 根据入口流量、出口流量与带宽阈值进行裁决,发现超过阈值后,通过一定策略将相应的 Task 转移到较小负载的 Broker 上,并通知相应的 Producer 与 Consumer;Producer 与 Consumer 收到通知后,重新获取 Task 的路由信息,自动重连到新的 Broker 继续进行生产、消费。

高扇出需求

设想一个场景,有一个大规格的 topic,创建了 n 个消费组。消费总 TPS 是生产总 TPS 的 n 倍。增加消费组,会导致消费总 TPS 线性增长。到达一定消费组规模后,单 Broker 由于网卡带宽的原因,无法满足这种高扇出的场景。单服务器是无法解决这个问题。

在 JCQ 3.0 可以将这些不同的消费组对应的 SubTask 分散到若干个 Broker 上,每个 Broker 负责一部分 SubTask,单 Broker 从 Store 预读消息,将数据推送给 Consumer。这样多个 Broker 共同完成所有消费组的消息流量,协作一起提供高扇出的能力。

支持多种存储引擎

消息中间件很大的特点是:大部分场景下,热数据都在末端,而回溯几天之前的消息这个功能是不常用的。所以,就有冷热数据之分。

JCQ 计算节点设计了一层存储抽象层 Store Bridge 可以接入不同的存储引擎,可以接入 Remote Raft Cluster,或者分布式文件系统 WOS、或者 S3。甚者可以将冷数据定期从昂贵的本地盘卸载到廉价的存储引擎上。

副作用

相对于 JCQ2.0,计算节点与存储节点之间的通信方式,由接口调用变为 RPC 调用,在延迟方面会有一定损失。经过测试,绝大部分延迟都在 1ms 左右,在大多数场景下 牺牲 1ms 左右的延迟并不会给业务带来太大的影响。

后续发展规划

JCQ 后续会主要在多协议兼容,按需自动扩缩容、云原生等方面演进。

多协议兼容

JCQ 协议为私有协议,在引导用户迁移方面有比较大的障碍。后续会抽离 JCQ Kernel,外部提供不同的协议接入层。方便用户从其他 MQ 接入 JCQ。目前已兼容 RocketMQ 协议,SQS 协议

自动扩缩容

JCQ 是共享消息中间件,但缺少 Serverless 自动扩缩容的特性。每逢大促,如 618,双 11,服贸会等重要活动。业务方很难预估自己的业务量峰值,或者估计不足,会造成 topic 限流等问题。如在保证 JCQ 服务本身能力情况下,能做到 topic 灵活的自动扩缩容,将对用户有极大的帮助,起到真正的削峰填谷作用。

云原生

支持在 kubernetes 环境部署与交付,提供原生的 Operator,能够快速的部署在 k8s 环境中,更好的交付私有云、混合云项目。

计算存储分离在京东云消息中间件JCQ上的应用的更多相关文章

  1. 一文读懂GaussDB(for Mongo)的计算存储分离架构

    摘要:IDC认为,目前阶段来看,企业亟待解决的是数字化能力提升,包括:与业务的深入结合能力:数据处理和挖掘能力:以及IT技术运营和管理能力.特别是数据处理和挖掘能力,因为数字化转型推进企业从以流程为核 ...

  2. TKE用户故事 | 作业帮检索服务基于Fluid的计算存储分离实践

    作者 吕亚霖,2019年加入作业帮,作业帮基础架构-架构研发团队负责人,在作业帮期间主导了云原生架构演进.推动实施容器化改造.服务治理.GO微服务框架.DevOps的落地实践. 张浩然,2019年加入 ...

  3. 容器化RDS|计算存储分离 or 本地存储?

    随着交流机会的增多(集中在金融行业,规模都在各自领域数一数二),发现大家对 Docker + Kubernetes 的接受程度超乎想象, 并极有兴趣将这套架构应用到 RDS 领域.数据库服务的需求可以 ...

  4. JAE京东云引擎Git上传管理代码教程和京东云数据库导入导出管理

    文章目录 Git管理准备工作 Git工具上传代码 发布代码装程序 mywebsql管理 京东云引擎小结   JAE京东云引擎是京东推出的支持Java.Ruby.Python.PHP.Node.js多语 ...

  5. TiKV 在京东云对象存储元数据管理的实践

    京东云对象存储是在 2016 年作为公有云对外公开的,主要特点是可靠.安全.海量.低成本,应用于包括一些常用的业务场景,比如京东内部的京东商城视频/图片云存储,面向京东云公有云外部的开发者的服务,和面 ...

  6. 京东云开发者|ElasticSearch降本增效常见的方法

    Elasticsearch在db_ranking 的排名又(双叒叕)上升了一位,如图1-1所示;由此可见es在存储领域已经蔚然成风且占有非常重要的地位. 随着Elasticsearch越来越受欢迎,企 ...

  7. 从单个系统到云翼一体化支撑,京东云DevOps推进中的一波三折

    作者:王利莹 采访嘉宾:京东云DevOps团队负责人 郑永宽 今年,IDC 特别针对中国地区发布了<IDC MarketScape:中国 DevOps 云市场2019,厂商评估>研究报告, ...

  8. 技术沙龙|京东云DevOps自动化运维技术实践

    自动化测试体系不完善.缺少自助式的持续交付平台.系统间耦合度高服务拆分难度大.成熟的DevOps工程师稀缺,缺少敏捷文化--这些都是DevOps 在落地过程中,或多或少会碰到的问题,DevOps发展任 ...

  9. 干货 | 基于Go SDK操作京东云对象存储OSS的入门指南

    前言 本文介绍如何使用Go语言对京东云对象存储OSS进行基本的操作,帮助客户快速通过Go SDK接入京东云对象存储,提高应用开发的效率. 在实际操作之前,我们先看一下京东云OSS的API接口支持范围和 ...

  10. 如何利用京东云的对象存储(OSS)上传下载文件

    作者:刘冀 在公有云厂商里都有对象存储,京东云也不例外,而且也兼容S3的标准因此可以利用相关的工具去上传下载文件,本文主要记录一下利用CloudBerry Explorer for Amazon S3 ...

随机推荐

  1. Vue实现拖拽穿梭框功能四种方式

    一.使用原生js实现拖拽 点击打开视频讲解更加详细 <html lang="en"> <head> <meta charset="UTF-8 ...

  2. PTA 乙级解题笔记 1001 害死人不偿命的(3n+1)猜想

    卡拉兹(Callatz)猜想: 对任何一个正整数 n,如果它是偶数,那么把它砍掉一半:如果它是奇数,那么把 (3n+1) 砍掉一半.这样一直反复砍下去,最后一定在某一步得到 n=1.卡拉兹在 1950 ...

  3. 国产电脑可较为流畅运行的Windows系统

    系统是Windows2003,内置了WPS和IE8,使用QEMU TCG运行,速度慢,凑合能用. 使用前先sudo apt install qemu-system-x86,把压缩包中的2003.qco ...

  4. docker搭建yapi接口文档系统、Idea中上传接口、在线调用

    一.前言 在我们后端开发中,必不可少的是接口的交接,有很多种方式,常见的就是swagger,不过这个侵入性太强了.还有就是接口文档的框架,比如今天小编带大家一起搭建的yapi,在公司还是挺常见的! 今 ...

  5. TCP和UDP的区别与联系以及网络字节序和主机字节序的转换函数实践

    TCP和UDP的区别 TCP是一个面向连接的.可靠的.基于字节流的传输层协议. 而UDP是一个面向无连接的传输层协议. 具体来分析,和 UDP 相比,TCP 有三大核心特性: 面向连接:所谓的连接,指 ...

  6. python提效小工具-统计xmind用例数量

    问题:做测试的朋友们经常会用到xmind这个工具来梳理测试点或写测试用例,但是xmind8没有自带的统计测试用例,其他版本的xmind有些自带节点数量统计功能,但也也不会累计最终的数量,导致统计测试工 ...

  7. iOS开发之自定义日历控件

    前言 日常开发中经常会遇到日期选择,为了方便使用,简单封装了一个日历控件,在此抛砖引玉供大家参考. 效果 功能 支持单选.区间 支持默认选中日期 支持限制月份 支持过去.当前.未来模式 支持frame ...

  8. 题解 P6745 『MdOI R3』Number

    前言 不知道是不是正解但是觉得挺好理解. 科学计数法 将一个数表示为\(a\times 10^x\) 的形式.其中\(a\leq10\),\(x\) 为整数. \(\sf Solution\) 其实这 ...

  9. C# 9.0 添加和增强的功能【基础篇】

    一.记录(record) C# 9.0 引入了记录类型. 可使用 record 关键字定义一个引用类型,以最简的方式创建不可变类型.这种类型是线程安全的,不需要进行线程同步,非常适合并行计算的数据共享 ...

  10. pod(九):污点taint 与容忍度tolerations

    目录 一.系统环境 二.前言 三.污点taint 3.1 污点taint概览 3.2 给节点添加污点taint 四.容忍度tolerations 4.1 容忍度tolerations概览 4.2 设置 ...