最近我们的 Pulsar 存储有很长一段时间数据一直得不到回收，但消息确实已经是 ACK 了，理论上应该是会被回收的，随着时间流逝不但没回收还一直再涨，最后在没找到原因的情况下就只有一直不停的扩容。

最后磁盘是得到了回收，过程先不表，之后再讨论。

为了防止类似的问题再次发生，我们希望可以监控到磁盘维度，能够列出各个日志文件的大小以及创建时间。

这时就需要对 Pulsar 的存储模型有一定的了解，也就有了这篇文章。

讲到 Pulsar 的存储模型，本质上就是 Bookkeeper 的存储模型。

Pulsar 所有的消息读写都是通过 Bookkeeper 实现的。

Bookkeeper 是一个可扩展、可容错、低延迟的日志存储数据库，基于 Append Only 模型。（数据只能追加不能修改）

这里我利用 Pulsar 和 Bookkeeper 的 Admin API 列出了 Broker 和 BK 中 Ledger 分别占用的磁盘空间。

关于这个如何获取和计算的，后续也准备提交给社区。

背景

但和我们实际 kubernetes 中的磁盘占用量依然对不上，所以就想看看在 BK 中实际的存储日志和 Ledger 到底差在哪里。

知道 Ledger 就可以通过 Ledger 的元数据中找到对应的 topic，从而判断哪些 topic 的数据导致统计不能匹配。

Bookkeeper 有提提供一个Admin API 可以返回当前 BK 所使用了哪些日志文件的接口:

https://bookkeeper.apache.org/docs/admin/http#endpoint-apiv1bookielist_disk_filefile_typetype

从返回的结果可以看出，落到具体的磁盘上只有一个文件名称，是无法知道具体和哪些 Ledger 进行关联的，也就无法知道具体的 topic 了。

此时只能大胆假设，应该每个文件和具体的消息 ID 有一个映射关系，也就是索引。

所以需要搞清楚这个索引是如何运行的。

存储模型

我查阅了一些网上的文章和源码大概梳理了一个存储流程：

BK 收到写入请求，数据会异步写入到 Journal/Entrylog
Journal 直接顺序写入，并且会快速清除已经写入的数据，所以需要的磁盘空间不多（所以从监控中其实可以看到 Journal 的磁盘占有率是很低的）。
考虑到会随机读消息，EntryLog 在写入前进行排序，保证落盘的数据中同一个 Ledger 的数据尽量挨在一起，充分利用 PageCache.
最终数据的索引通过 LedgerId+EntryId 生成索引信息存放到 RockDB 中（Pulsar 的场景使用的是 DbLedgerStorage 实现）。
读取数据时先从获取索引，然后再从磁盘读取数据。
利用 Journal 和 EntryLog 实现消息的读写分离。

简单来说 BK 在存储数据的时候会进行双写，Journal 目录用于存放写的数据，对消息顺序没有要求，写完后就可以清除了。

而 Entry 目录主要用于后续消费消息进行读取使用，大部分场景都是顺序读，毕竟我们消费消息的时候很少会回溯，所以需要充分利用磁盘的 PageCache，将顺序的消息尽量的存储在一起。

同一个日志文件中可能会存放多个 Ledger 的消息，这些数据如果不排序直接写入就会导致乱序，而消费时大概率是顺序的，但具体到磁盘的表现就是随机读了，这样读取效率较低。

所以我们使用 Helm 部署 Bookkeeper 的时候需要分别指定 journal 和 ledgers 的目录

volumes:

  # use a persistent volume or emptyDir

  persistence: true

  journal:

    name: journal

    size: 20Gi

    local_storage: false

    multiVolumes:

      - name: journal0

        size: 10Gi

        # storageClassName: existent-storage-class

        mountPath: /pulsar/data/bookkeeper/journal0

      - name: journal1

        size: 10Gi

        # storageClassName: existent-storage-class

        mountPath: /pulsar/data/bookkeeper/journal1

  ledgers:

    name: ledgers

    size: 50Gi

    local_storage: false

    storageClassName: sc

    # storageClass:

      # ...    useMultiVolumes: false

    multiVolumes:

      - name: ledgers0

        size: 1000Gi

        # storageClassName: existent-storage-class

        mountPath: /pulsar/data/bookkeeper/ledgers0

      - name: ledgers1

        size: 1000Gi

        # storageClassName: existent-storage-class

        mountPath: /pulsar/data/bookkeeper/ledgers1

每次在写入和读取数据的时候都需要通过消息 ID 也就是 ledgerId 和 entryId 来获取索引信息。

也印证了之前索引的猜测。

所以借助于 BK 读写分离的特性，我们还可以单独优化存储。

比如写入 Journal 的磁盘因为是顺序写入，所以即便是普通的 HDD 硬盘速度也很快。

大部分场景下都是读大于写，所以我们可以单独为 Ledger 分配高性能 SSD 磁盘，按需使用。

因为在最底层的日志文件中无法直接通过 ledgerId 得知占用磁盘的大小，所以我们实际的磁盘占用率对不上的问题依然没有得到解决，这个问题我还会持续跟进，有新的进展再继续同步。

白话 Pulsar Bookkeeper 的存储模型的更多相关文章

翟佳：高可用、强一致、低延迟——BookKeeper的存储实现
分享嘉宾:翟佳 StreamNative 联合创始人编辑整理:张晓伟美团点评出品平台:DataFunTalk 导读:多数读者们了解BookKeeper是通过Pulsar,实际上BookKeepe ...
Entity Framework 6 Recipes 2nd Edition（10-5）译 -> 在存储模型中使用自定义函数
10-5. 在存储模型中使用自定义函数问题想在模型中使用自定义函数,而不是存储过程. 解决方案假设我们数据库里有成员(members)和他们已经发送的信息(messages) 关系数据表,如Fi ...
SQLite剖析之存储模型
前言 SQLite作为嵌入式数据库,通常针对的应用的数据量相对于DBMS的数据量小.所以它的存储模型设计得非常简单,总的来说,SQLite把一个数据文件分成若干大小相等的页面,然后以B树的形式来组织这 ...
Bitcask 存储模型
Bitcask 存储模型 Bitcask 是一个日志型.基于hash表结构的key-value存储模型,以Bitcask为存储模型的K-V系统有 Riak和 beansdb新版本. 日志型数据存储何 ...
LSM存储模型
LSM存储模型数据库有3种基本的存储引擎: 哈希表,支持增.删.改以及随机读取操作,但不支持顺序扫描,对应的存储系统为key-value存储系统.对于key-value的插入以及查询,哈希表的复杂度 ...
SQLite入门与分析(八)---存储模型(1)
写在前面:SQLite作为嵌入式数据库,通常针对的应用的数据量相对于通常DBMS的数据量是较小的.所以它的存储模型设计得非常简单,总的来说,SQLite把一个数据文件分成若干大小相等的页面,然后以B树 ...
LSM树存储模型
----<大规模分布式存储系统:原理解析与架构实战>读书笔记之前研究了Bitcask存储模型,今天来看看LSM存储模型,两者尽管同属于基于键值的日志型存储模型.可是Bitcask使用哈希 ...
剖析Elasticsearch集群系列第一篇 Elasticsearch的存储模型和读写操作
剖析Elasticsearch集群系列涵盖了当今最流行的分布式搜索引擎Elasticsearch的底层架构和原型实例. 本文是这个系列的第一篇,在本文中,我们将讨论的Elasticsearch的底层存 ...
剖析Elasticsearch集群系列之一：Elasticsearch的存储模型和读写操作
转载:http://www.infoq.com/cn/articles/analysis-of-elasticsearch-cluster-part01 1.辨析Elasticsearch的索引与Lu ...
并发编程学习笔记之Java存储模型(十三)
概述 Java存储模型(JMM),安全发布.规约,同步策略等等的安全性得益于JMM,在你理解了为什么这些机制会如此工作后,可以更容易有效地使用它们. 1. 什么是存储模型,要它何用. 如果缺少同步,就 ...

随机推荐

Electron原生菜单
.markdown-body { color: rgba(56, 56, 56, 1); font-size: 15px; line-height: 30px; letter-spacing: 2px ...
基于C# Socket实现的简单的Redis客户端
前言 Redis是一款强大的高性能键值存储数据库,也是目前NOSQL中最流行比较流行的一款数据库,它在广泛的应用场景中扮演着至关重要的角色,包括但不限于缓存.消息队列.会话存储等.在本文中,我们将介绍 ...
C#操作Microsoft.Office.Interop.Word类库完整例子
使用Microsoft.Office.Interop.Word类库操作wor文档一.准备工作首先在工厂中,引用[Microsoft.Office.Interop.Word],本地安装了world, ...
牛客多校第二场 I.Penguins
题意两个企鹅,一个从地图的右下角走右上角,一个从另一个地图的左下角走到左上角,我们操控左边的企鹅,右边的企鹅与左边企鹅运动规则如下. 左边企鹅向左,右边企鹅向右左边企鹅向右,右边企鹅向左左边企鹅 ...
AtCoder Beginner Contest 329 (ABC329)
A. Spread 不说了,代码. B. Next 不说了,代码. C. Count xxx Description 给定一个长度为 \(N\) 的字符串 \(S\),求 \(S\) 中非空连续,并且 ...
🔥🔥Java开发者的Python快速进修指南：面向对象基础
当我深入学习了面向对象编程之后,我首先感受到的是代码编写的自由度大幅提升.不同于Java中严格的结构和约束,Python在面向对象的实现中展现出更加灵活和自由的特性.它使用了一些独特的关键字,如sel ...
games101-2 透视深度插值矫正与抗锯齿分析
透视深度插值矫正与抗锯齿分析深度插值的差错原因透视深度插值公式推导 games101中的错误 msaa与ssaa简要定义 games101中ssaa的实现 games101中msaa的实现深度插 ...
分享一个LCD驱动框架
首先需要说明的是本篇文章不是关于如何点亮一块LCD屏的教程,而是介绍一个LCD开发框架,更准确的说是介绍一个LCD的中间件(Middlwware),用来连接UI和不同类型的LCD屏.笔者本人的工作内容 ...
ubuntu 20.04系统上安装teleport开源堡垒机
ubuntu 20.04安装部署teleport堡垒机简介:Teleport是一款简单易用的开源堡垒机系统,具有小巧.易用的特点,支持 RDP/SSH/SFTP/Telnet 协议的远程连接和审计管 ...
ceph集群搭建详细教程（ceph-deploy）
ceph-deploy比较适合生产环境,不是用cephadm搭建.相对麻烦一些,但是并不难,细节把握好就行,只是命令多一些而已. 实验环境服务器主机 public网段IP(对外服务) cluster ...

白话 Pulsar Bookkeeper 的存储模型

背景

存储模型

白话 Pulsar Bookkeeper 的存储模型的更多相关文章

随机推荐

热门专题