载均衡技术全解析:Pulsar 分布式系统的最佳实践
背景
Pulsar 有提供一个查询 Broker 负载的接口:
/**
* Get load for this broker.
*
* @return
* @throws PulsarAdminException
*/
LoadManagerReport getLoadReport() throws PulsarAdminException;
public interface LoadManagerReport extends ServiceLookupData {
ResourceUsage getCpu();
ResourceUsage getMemory();
ResourceUsage getDirectMemory();
ResourceUsage getBandwidthIn();
ResourceUsage getBandwidthOut();
}
可以返回一些 broker 的负载数据,比如 CPU、内存、流量之类的数据。
我目前碰到的问题是目前会遇到部分节点的负债不平衡,导致资源占用不均衡,所以想要手动查询所有节点的负载数据,然后人工进行负载。
理论上这些数据是在运行时实时计算的数据,如果对于单机的倒还好说,每次请求这个接口直接实时计算一次就可以了。
但对于集群的服务来说会有多个节点,目前 Pulsar 提供的这个接口只能查询指定节点的负载数据,也就是说每次得传入目标节点的 IP 和端口。
所以我的预期是可以提供一个查询所有节点负载的接口,已经提了 issue
,最近准备写 Purpose 把这个需求解决了。
实现这个需求的方案有两种:
- 拿到所有 broker 也就是服务节点信息,依次遍历调用接口,然后自己组装信息。
- 从 zookeeper 中获取负载信息。
理论上第二种更好,第一种实现虽然更简单,但每次都发起一次 http 请求,多少有些浪费。
第二种方案直接从源头获取负载信息,只需要请求一次就可以了。
而正好社区提供了一个命令行工具可以直接打印所有的 broker
负载数据:
pulsar-perf monitor-brokers --connect-string <zookeeper host:port>
分布式系统常用组件
提供的命令行工具其实就是直接从 zookeeper 中查询的数据。
在分布式系统中需要一个集中的组件来管理各种数据,比如:
- 可以利用该组件来选举 leader 节点
- 使用该组件来做分布式锁
- 为分布式系统同步数据
- 统一的存放和读取某些数据
可以提供该功能的组件其实也不少:
Zookeeper 是老牌的分布式协调组件,可以做 leader 选举、配置中心、分布式锁、服务注册与发现等功能。
在许多中间件和系统中都有应用,比如:
- Apache Pulsar 中作为协调中心
- Kafka 中也有类似的作用。
- 在 Dubbo 中作为服务注册发现组件。
etcd 的功能与 zookeeper 类似,可以用作服务注册发现,也可以作为 Key Value 键值对存储系统;在 kubernetes 中扮演了巨大作用,经历了各种考验,稳定性已经非常可靠了。
Oxia 则是 StreamNative 开发的一个用于替换 Zookeeper 的中间件,功能也与 Zookeeper 类似;目前已经可以在 Pulsar 中替换 Zookeeper,只是还没有大规模的使用。
Pulsar 中的应用
下面以 Pulsar 为例(使用 zookeeper),看看在这类大型分布式系统中是如何处理负载均衡的。
再开始之前先明确下负载均衡大体上会做哪些事情。
- 首先上报自己节点的负载数据
- Leader 节点需要定时收集所有节点的负载数据。
- 这些负载数据中包括:
CPU
、堆内存、堆外内存等通用数据的使用量- 流出、流入流量
- 一些系统特有的数据,比如在
Pulsar
中就是:- 每个
broker
中的topic
、consumer
、producer
、bundle
等数据。
- 每个
- 这些负载数据中包括:
- 再由 leader 节点读取到这些数据后选择负载较高的节点,将数据迁移到负载较低的节点。
以上就是一个完整的负载均衡的流程,下面我们依次看看在 Pulsar
中是如何实现这些逻辑的。
在 Pulsar 中提供了多种负载均衡策略,以下是加载负载均衡器的逻辑:
static LoadManager create(final PulsarService pulsar) {
try {
final ServiceConfiguration conf = pulsar.getConfiguration();
// Assume there is a constructor with one argument of PulsarService.
final Object loadManagerInstance = Reflections.createInstance(conf.getLoadManagerClassName(),
Thread.currentThread().getContextClassLoader());
if (loadManagerInstance instanceof LoadManager) {
final LoadManager casted = (LoadManager) loadManagerInstance;
casted.initialize(pulsar);
return casted;
} else if (loadManagerInstance instanceof ModularLoadManager) {
final LoadManager casted = new ModularLoadManagerWrapper((ModularLoadManager) loadManagerInstance);
casted.initialize(pulsar);
return casted;
}
} catch (Exception e) {
LOG.warn("Error when trying to create load manager: ", e);
}
// If we failed to create a load manager, default to SimpleLoadManagerImpl.
return new SimpleLoadManagerImpl(pulsar);
}
默认使用的是 ModularLoadManagerImpl
, 如果出现异常那就会使用 SimpleLoadManagerImpl
作为兜底。
他们两个的区别是 ModularLoadManagerImpl
的功能更全,可以做更为细致的负载策略。
接下来以默认的 ModularLoadManagerImpl
为例讲解上述的流程。
上报负载数据
在负载均衡器启动的时候就会收集节点数据然后进行上报:
public void start() throws PulsarServerException {
try {
String brokerId = pulsar.getBrokerId();
brokerZnodePath = LoadManager.LOADBALANCE_BROKERS_ROOT + "/" + brokerId;
// 收集本地负载数据
updateLocalBrokerData();
// 上报 zookeeper
brokerDataLock = brokersData.acquireLock(brokerZnodePath, localData).join();
} catch (Exception e) {
log.error("Unable to acquire lock for broker: [{}]", brokerZnodePath, e);
throw new PulsarServerException(e);
}
}
首先获取到当前 broker 的 Id 然后拼接一个 zookeeper 节点的路径,将生成的 localData 上传到 zookeeper 中。
// 存放 broker 的节点信息
ls /loadbalance/brokers
[broker-1:8080, broker-2:8080]
// 根据节点信息查询负载数据
get /loadbalance/brokers/broker-1:8080
上报的数据:
{"webServiceUrl":"http://broker-1:8080","pulsarServiceUrl":"pulsar://broker-1:6650","persistentTopicsEnabled":true,"nonPersistentTopicsEnabled":true,"cpu":{"usage":7.311714728372232,"limit":800.0},"memory":{"usage":124.0,"limit":2096.0},"directMemory":{"usage":36.0,"limit":256.0},"bandwidthIn":{"usage":0.8324254085661579,"limit":1.0E7},"bandwidthOut":{"usage":0.7155446715644209,"limit":1.0E7},"msgThroughputIn":0.0,"msgThroughputOut":0.0,"msgRateIn":0.0,"msgRateOut":0.0,"lastUpdate":1690979816792,"lastStats":{"my-tenant/my-namespace/0x4ccccccb_0x66666664":{"msgRateIn":0.0,"msgThroughputIn":0.0,"msgRateOut":0.0,"msgThroughputOut":0.0,"consumerCount":2,"producerCount":0,"topics":1,"cacheSize":0}},"numTopics":1,"numBundles":1,"numConsumers":2,"numProducers":0,"bundles":["my-tenant/my-namespace/0x4ccccccb_0x66666664"],"lastBundleGains":[],"lastBundleLosses":[],"brokerVersionString":"3.1.0-SNAPSHOT","protocols":{},"advertisedListeners":{"internal":{"brokerServiceUrl":"pulsar://broker-1:6650"}},"loadManagerClassName":"org.apache.pulsar.broker.loadbalance.impl.ModularLoadManagerImpl","startTimestamp":1690940955211,"maxResourceUsage":0.140625,"loadReportType":"LocalBrokerData"}
采集数据
public static SystemResourceUsage getSystemResourceUsage(final BrokerHostUsage brokerHostUsage) {
SystemResourceUsage systemResourceUsage = brokerHostUsage.getBrokerHostUsage();
// Override System memory usage and limit with JVM heap usage and limit
double maxHeapMemoryInBytes = Runtime.getRuntime().maxMemory();
double memoryUsageInBytes = Runtime.getRuntime().totalMemory() - Runtime.getRuntime().freeMemory();
double memoryUsage = memoryUsageInBytes / MIBI;
double memoryLimit = maxHeapMemoryInBytes / MIBI;
systemResourceUsage.setMemory(new ResourceUsage(memoryUsage, memoryLimit));
// Collect JVM direct memory
systemResourceUsage.setDirectMemory(new ResourceUsage((double) (getJvmDirectMemoryUsed() / MIBI),
(double) (DirectMemoryUtils.jvmMaxDirectMemory() / MIBI)));
return systemResourceUsage;
}
会在运行时获取一些 JVM 和 堆外内存的数据。
收集所有节点数据
作为 leader
节点还需要收集所有节点的负载数据,然后根据一些规则选择将负载较高的节点移动到负债较低的节点中。
private void updateAllBrokerData() {
// 从 zookeeper 中获取所有节点
final Set<String> activeBrokers = getAvailableBrokers();
final Map<String, BrokerData> brokerDataMap = loadData.getBrokerData();
for (String broker : activeBrokers) {
try {
String key = String.format("%s/%s", LoadManager.LOADBALANCE_BROKERS_ROOT, broker);
// 依次读取各个节点的负载数据
Optional<LocalBrokerData> localData = brokersData.readLock(key).get();
if (!localData.isPresent()) {
brokerDataMap.remove(broker);
log.info("[{}] Broker load report is not present", broker);
continue;
}
if (brokerDataMap.containsKey(broker)) {
// Replace previous local broker data.
brokerDataMap.get(broker).setLocalData(localData.get());
} else {
// Initialize BrokerData object for previously unseen
// brokers.
// 将数据写入到本地缓存
brokerDataMap.put(broker, new BrokerData(localData.get()));
}
} catch (Exception e) {
log.warn("Error reading broker data from cache for broker - [{}], [{}]", broker, e.getMessage());
}
}
// Remove obsolete brokers.
for (final String broker : brokerDataMap.keySet()) {
if (!activeBrokers.contains(broker)) {
brokerDataMap.remove(broker);
}
}
}
会从 zookeeper 的节点中获取到所有的 broker 列表(broker 会在启动时将自身的信息注册到 zookeeper 中。)
然后依次读取各自节点的负载数据,也就是在负载均衡器启动的时候上报的数据。
筛选出所有 broker 中需要 unload 的 bundle
在 Pulsar 中 topic 是最核心的概念,而为了方便管理大量 topic,提出了一个 Bundle 的概念; Bundle 是一批 topic 的集合,管理 Bundle 自然会比 topic 更佳容易。
所以在 Pulsar 中做负载均衡最主要的就是将负载较高节点中的 bundle 转移到低负载的 broker 中。
private void updateAllBrokerData() {
final Set<String> activeBrokers = getAvailableBrokers();
final Map<String, BrokerData> brokerDataMap = loadData.getBrokerData();
for (String broker : activeBrokers) {
try {
String key = String.format("%s/%s", LoadManager.LOADBALANCE_BROKERS_ROOT, broker);
Optional<LocalBrokerData> localData = brokersData.readLock(key).get();
if (!localData.isPresent()) {
brokerDataMap.remove(broker);
log.info("[{}] Broker load report is not present", broker);
continue;
}
if (brokerDataMap.containsKey(broker)) {
// Replace previous local broker data.
brokerDataMap.get(broker).setLocalData(localData.get());
} else {
// Initialize BrokerData object for previously unseen
// brokers.
brokerDataMap.put(broker, new BrokerData(localData.get()));
}
} catch (Exception e) {
log.warn("Error reading broker data from cache for broker - [{}], [{}]", broker, e.getMessage());
}
}
// Remove obsolete brokers.
for (final String broker : brokerDataMap.keySet()) {
if (!activeBrokers.contains(broker)) {
brokerDataMap.remove(broker);
}
}
}
负载均衡器在启动的时候就会查询所有节点的数据,然后写入到 brokerDataMap
中。
同时也会注册相关的 zookeeper 事件,当注册的节点发生变化时(一般是新增或者删减了 broker 节点)就会更新内存中缓存的负载数据。
之后 leader 节点会定期调用 org.apache.pulsar.broker.loadbalance.impl.ModularLoadManagerImpl#doLoadShedding
函数查询哪些数据需要卸载,然后进行重新负载。
final Multimap<String, String> bundlesToUnload = loadSheddingStrategy.findBundlesForUnloading(loadData, conf);
最核心的就是调用这个 findBundlesForUnloading
函数,会返回需要卸载 bundle 集合,最终会遍历这个集合调用 admin API 进行卸载和重平衡。
而这个函数会有多种实现,本质上就是根据传入的各个节点的负载数据,然后根据自定义的规则返回一批需要卸载的数据。
以默认的 org.apache.pulsar.broker.loadbalance.impl.ThresholdShedder
规则为例:
它是根据带宽、内存、流量等各个指标的权重算出每个节点的负载值,之后为整个集群计算出一个平均负载值。
以上图为例:超过 ShedBundles
的数据就需要被卸载掉,然后转移到低负载的节点中。
所以最左边节点和超出的 bundle 部分就需要被返回。
具体的计算逻辑如下:
private void filterAndSelectBundle(LoadData loadData, Map<String, Long> recentlyUnloadedBundles, String broker,
LocalBrokerData localData, double minimumThroughputToOffload) {
MutableDouble trafficMarkedToOffload = new MutableDouble(0);
MutableBoolean atLeastOneBundleSelected = new MutableBoolean(false);
loadData.getBundleDataForLoadShedding().entrySet().stream()
.map((e) -> {
String bundle = e.getKey();
BundleData bundleData = e.getValue();
TimeAverageMessageData shortTermData = bundleData.getShortTermData();
double throughput = shortTermData.getMsgThroughputIn() + shortTermData.getMsgThroughputOut();
return Pair.of(bundle, throughput);
}).filter(e ->
!recentlyUnloadedBundles.containsKey(e.getLeft())
).filter(e ->
localData.getBundles().contains(e.getLeft())
).sorted((e1, e2) ->
Double.compare(e2.getRight(), e1.getRight())
).forEach(e -> {
if (trafficMarkedToOffload.doubleValue() < minimumThroughputToOffload
|| atLeastOneBundleSelected.isFalse()) {
selectedBundlesCache.put(broker, e.getLeft());
trafficMarkedToOffload.add(e.getRight());
atLeastOneBundleSelected.setTrue();
}
});
}
从代码里看的出来就是在一个备选集合中根据各种阈值和判断条件筛选出需要卸载的 bundle。
而 SimpleLoadManagerImpl
的实现如下:
synchronized (currentLoadReports) {
for (Map.Entry<ResourceUnit, LoadReport> entry : currentLoadReports.entrySet()) {
ResourceUnit overloadedRU = entry.getKey();
LoadReport lr = entry.getValue();
// 所有数据做一个简单的筛选,超过阈值的数据需要被 unload
if (isAboveLoadLevel(lr.getSystemResourceUsage(), overloadThreshold)) {
ResourceType bottleneckResourceType = lr.getBottleneckResourceType();
Map<String, NamespaceBundleStats> bundleStats = lr.getSortedBundleStats(bottleneckResourceType);
if (bundleStats == null) {
log.warn("Null bundle stats for bundle {}", lr.getName());
continue;
}
就是很简单的通过将判断节点的负载是否超过了阈值 isAboveLoadLevel
,然后做一个简单的排序就返回了。
从这里也看得出来 SimpleLoadManagerImpl
和 ModularLoadManager
的区别,SimpleLoadManagerImpl
更简单,并没有提供多个 doLoadShedding
的筛选实现。
总结
总的来说对于无状态的服务来说,理论上我们只需要做好负载算法即可(轮训、一致性哈希、低负载优先等)就可以很好的平衡各个节点之间的负载。
而对于有状态的服务来说,负载均衡就是将负载较高节点中的数据转移到负载低的节点中。
其中的关键就是需要存储各个节点的负载数据(业界常用的是存储到 zookeeper 中),然后再由一个 leader 节点从这些节点中根据某种负载算法选择出负载较高的节点以及负载较低的节点,最终把数据迁移过去即可。
载均衡技术全解析:Pulsar 分布式系统的最佳实践的更多相关文章
- Android图片加载框架最全解析(八),带你全面了解Glide 4的用法
本篇将是我们这个Glide系列的最后一篇文章. 其实在写这个系列第一篇文章的时候,Glide就推出4.0.0的RC版了.那个时候因为我一直研究的都是Glide 3.7.0版本,再加上RC版本还不太稳定 ...
- Android图片加载框架最全解析(四),玩转Glide的回调与监听
大家好,今天我们继续学习Glide. 在上一篇文章当中,我带着大家一起深入探究了Glide的缓存机制,我们不光掌握了Glide缓存的使用方法,还通过源码分析对缓存的工作原理进行了了解.虽说上篇文章和本 ...
- Android图片加载框架最全解析(一),Glide的基本用法
现在Android上的图片加载框架非常成熟,从最早的老牌图片加载框架UniversalImageLoader,到后来Google推出的Volley,再到后来的新兴军Glide和Picasso,当然还有 ...
- Android图片加载框架最全解析(七),实现带进度的Glide图片加载功能
我们的Glide系列文章终于要进入收尾篇了.从我开始写这个系列的第一篇文章时,我就知道这会是一个很长的系列,只是没有想到竟然会写这么久. 在前面的六篇文章中,我们对Glide的方方面面都进行了学习,包 ...
- Android图片加载框架最全解析(六),探究Glide的自定义模块功能
不知不觉中,我们的Glide系列教程已经到了第六篇了,距离第一篇Glide的基本用法发布已经过去了半年的时间.在这半年中,我们通过用法讲解和源码分析配合学习的方式,将Glide的方方面面都研究了个遍, ...
- Android图片加载框架最全解析(五),Glide强大的图片变换功能
大家好,又到了学习Glide的时间了.前段时间由于项目开发紧张,再加上后来又生病了,所以停更了一个月,不过现在终于又可以恢复正常更新了.今天是这个系列的第五篇文章,在前面四篇文章的当中,我们已经学习了 ...
- Android图片加载框架最全解析(三),深入探究Glide的缓存机制
在本系列的上一篇文章中,我带着大家一起阅读了一遍Glide的源码,初步了解了这个强大的图片加载框架的基本执行流程. 不过,上一篇文章只能说是比较粗略地阅读了Glide整个执行流程方面的源码,搞明白了G ...
- Android图片加载框架最全解析(二),从源码的角度理解Glide的执行流程
在本系列的上一篇文章中,我们学习了Glide的基本用法,体验了这个图片加载框架的强大功能,以及它非常简便的API.还没有看过上一篇文章的朋友,建议先去阅读 Android图片加载框架最全解析(一),G ...
- H5全屏滚动专题页最佳实践
1.slip.js + rem.js 主要插件: slip.js github: https://github.com/binnng/slip.js rem.js 插件为阿里淘宝的 rem 实现的基础 ...
- Android 异步加载神器Loader全解析
在之前呢,我们经常会有这种需求,比如在某个activity,或者某个fragment里面,我们需要查找某个数据源,并且显示出来,当数据源自己更新的时候,界面也要及时响应. 当然咯,查找数据这个过程可能 ...
随机推荐
- Pageoffice6 实现后台批量生成PDF文档
在实际项目开发中经常会遇到批量后台动态生成PDF文档的需求,目前网上有一些针对此需求的方案,如果您想要了解这些方案的对比,请查看后台生成单个Word文档中的"方案对比". 如果一次 ...
- 数字化开采|AIRIOT智慧矿山自动化生产解决方案
由于矿山地形复杂,生产自动化水平低,安全监管技术落后,事故频发等很多因素对煤矿开采技术提出了数据化.可视化.智能化的要求.通过目前的煤矿开采现状可以发现煤矿开采过程中,在生产.监管.巡检.安全.效 ...
- 在线电子表格编辑器 Luckysheet
下载地址 不知道地址正不正经,我先用着,网上找的地址,不知道是不是可信任的,疑似官网的两个地址都打不开, https://github.com/dream-num/Luckysheet zip包 h ...
- layui合并单元格
在别人的基础上解决了多列合并和同一个页面多个表格的问题 1 //合并单元格 2 function merge(id,res, columsName, columsIndex) { 3 4 var da ...
- 模拟重装Kubernetes(k8s)集群:删除k8s集群然后重装
目录 一.系统环境 二.前言 三.重装Kubernetes集群 3.1 环境介绍 3.2 删除k8s所有节点(node) 3.3 kubeadm初始化 3.4 添加worker节点到k8s集群 3.5 ...
- 将大量文件的拓展名中大写字母改为小写:Python实现
本文介绍基于Python语言,基于一个大文件夹,遍历其中的多个子文件夹,对于每一个子文件夹中的大量文件,批量将其文件的名称或后缀名中的字母由大写修改为小写的方法. 本文期望实现的需求为:现有一 ...
- golang的 CGO 是什么
CGO是Go(Golang)语言中的一个工具,全称为 "C-Go" 或者 "C for Go". 它是Go标准库的一部分,允许Go代码与C语言代码进行交互. C ...
- Objetive-C 属性和线程安全
一.接上一篇<nonatomic 带来的线程安全问题>,这里继续详细讨论属性各种类型与线程安全的关系 1)影响线程安全的属性类型,nonatomic,atomic,weak @proper ...
- RTMP协议中的Chunk Stream ID (CID)的作用
一.协议分层 RTMP包是以Message的结构封装的,结构如下所示: 1)Message Type ID在1-7的消息用于协议控制,这些消息一般是RTMP协议自身管理要使用的消息,用户一般情况下无需 ...
- 简单易懂的JSON框架
分享一个由本人编写的JSON框架. JSON反序列化使用递归方式来解析JSON字符串,不使用任何第三方JAR包,只使用JAVA的反射来创建对象(必须要有无参构造器),赋值,编写反射缓存来提升性 ...