节点 Citus 是一种 PostgreSQL 扩展,它允许数据库服务器(称为节点)在"无共享(shared nothing)"架构中相互协调.这些节点形成一个集群,允许 PostgreSQL 保存比单台计算机上更多的数据和使用更多的 CPU 内核. 这种架构还允许通过简单地向集群添加更多节点来扩展数据库. 扩展 https://www.postgresql.org/docs/current/external-extensions.html Coordinator 与 Worker 每…
优化一个分布式系统的吞吐能力,除了应用本身代码外,很大程度上是在优化它所依赖的中间件集群处理能力.如:kafka/redis/rabbitmq/postgresql/分布式存储(CephFS,JuiceFS,C urve,Longhorn)等集群的处理能力. 分布式存储集群(Longhorn) 这里主要用于 Citus 集群的协调器(coordinator)和工作器(worker) 节点的数据持久化. 具体文档,请参阅: https://longhorn.io/ 分布式 PostgreSQL 集…
多租户应用程序 在本教程中,我们将使用示例广告分析数据集来演示如何使用 Citus 来支持您的多租户应用程序. 注意 本教程假设您已经安装并运行了 Citus. 如果您没有运行 Citus,则可以使用单节点 Citus 中的选项之一在本地设置 Citus. https://docs.citusdata.com/en/v10.2/installation/single_node.html#development 数据模型和示例数据 我们将演示为广告分析应用程序构建数据库,公司可以使用该应用程序来查…
准备工作 这里假设,你已经在 k8s 上部署好了基于 Citus 扩展的分布式 PostgreSQL 集群. 查看 Citus 集群(kubectl get po -n citus),1 个 Coordinator(协调器) 节点 + 3 个 Worker(工作器) 节点. NAME READY STATUS RESTARTS AGE citus-coordinator-0 2/2 Running 0 3h55m citus-worker-0 2/2 Running 0 22m citus-wo…
确定应用程序类型 在 Citus 集群上运行高效查询要求数据在机器之间正确分布.这因应用程序类型及其查询模式而异. 大致上有两种应用程序在 Citus 上运行良好.数据建模的第一步是确定哪些应用程序类型更接近您的应用程序. 概览 多租户应用 实时应用 有时 schema 中有几十个或数百个表 表数量少 一次与一个租户(公司/商店)相关的查询 具有聚合的相对简单的分析查询 用于服务 Web 客户端的 OLTP 工作负载 摄取大量几乎不可变的数据 为每个租户分析查询提供服务的 OLAP 工作负载 通…
Citus 提供对大型数据集的实时查询.我们在 Citus 常见的一项工作负载涉及为事件数据的实时仪表板提供支持. 例如,您可以是帮助其他企业监控其 HTTP 流量的云服务提供商.每次您的一个客户端收到 HTTP 请求时,您的服务都会收到一条日志记录.您想要摄取所有这些记录并创建一个 HTTP 分析仪表板,为您的客户提供洞察力,例如他们的网站服务的 HTTP 错误数量. 重要的是,这些数据以尽可能少的延迟显示出来,这样您的客户就可以解决他们网站的问题. 仪表板显示历史趋势图也很重要. 或者,也许…
创建和分布表 要创建分布式表,您需要首先定义表 schema. 为此,您可以使用 CREATE TABLE 语句定义一个表,就像使用常规 PostgreSQL 表一样. CREATE TABLE http://www.postgresql.org/docs/current/static/sql-createtable.html CREATE TABLE github_events ( event_id bigint, event_type text, event_public boolean,…
插入数据 要将数据插入分布式表,您可以使用标准 PostgreSQL INSERT 命令.例如,我们从 Github 存档数据集中随机选择两行. INSERT http://www.postgresql.org/docs/current/static/sql-insert.html /* CREATE TABLE github_events ( event_id bigint, event_type text, event_public boolean, repo_id bigint, payl…
一个 Citus 集群由一个 coordinator 实例和多个 worker 实例组成. 数据在 worker 上进行分片和复制,而 coordinator 存储有关这些分片的元数据.向集群发出的所有查询都通过 coordinator 执行. coordinator 将查询划分为更小的查询片段,其中每个查询片段可以在分片上独立运行.然后协调器将查询片段分配给 worker,监督他们的执行,合并他们的结果,并将最终结果返回给用户. 查询处理架构可以通过下图进行简要描述. Citus 的查询处理管…
将现有应用程序迁移到 Citus 有时需要调整 schema 和查询以获得最佳性能. Citus 扩展了 PostgreSQL 的分布式功能,但它不是扩展所有工作负载的直接替代品.高性能 Citus 集群需要考虑数据模型.工具和所使用的 SQL 功能的选择. 第一步是优化现有的数据库模式,以便它可以在多台计算机上高效工作. 确定分布策略 选择分布键(distribution key) 识别表的类型 为迁移准备源表 添加分布键 回填新创建的列 接下来,更新应用程序代码和查询以处理 schema 更…