ReplacingMergeTree：实现Clickhouse数据更新

摘要：Clickhouse作为一个OLAP数据库，它对事务的支持非常有限。本文主要介绍通过ReplacingMergeTree来实现Clickhouse数据的更新、删除。

本文分享自华为云社区《Clickhouse如何实现数据更新》，作者：小霸王。

Clickhouse作为一个OLAP数据库，它对事务的支持非常有限。Clickhouse提供了MUTATION操作（通过ALTER TABLE语句）来实现数据的更新、删除，但这是一种“较重”的操作，它与标准SQL语法中的UPDATE、DELETE不同，是异步执行的，对于批量数据不频繁的更新或删除比较有用，可参考https://altinity.com/blog/2018/10/16/updates-in-clickhouse。除了MUTATION操作，Clickhouse还可以通过CollapsingMergeTree、VersionedCollapsingMergeTree、ReplacingMergeTree结合具体业务数据结构来实现数据的更新、删除，这三种方式都通过INSERT语句插入最新的数据，新数据会“抵消”或“替换”掉老数据，但是“抵消”或“替换”都是发生在数据文件后台Merge时，也就是说，在Merge之前，新数据和老数据会同时存在。因此，我们需要在查询时做一些处理，避免查询到老数据。Clickhouse官方文档提供了使用CollapsingMergeTree、VersionedCollapsingMergeTree的指导，https://clickhouse.com/docs/en/engines/table-engines/mergetree-family/collapsingmergetree/。相比于CollapsingMergeTree、VersionedCollapsingMergeTree需要标记位字段、版本字段，用ReplacingMergeTree来实现数据的更新删除会更加方便，这里着重介绍一下如何用ReplacingMergeTree来实现数据的更新删除。

我们假设一个需要频繁数据更新的场景，如某市用户用电量的统计，我们知道，用户的用电量每分每秒都有可能发生变化，所以会涉及到数据频繁的更新。首先，创建一张表来记录某市所有用户的用电量。

CREATE TABLE IF NOT EXISTS default.PowerConsumption_local ON CLUSTER default_cluster

(

    User_ID             UInt64                              COMMENT '用户ID',

    Record_Time         DateTime    DEFAULT toDateTime(0)   COMMENT '电量记录时间',

    District_Code       UInt8                               COMMENT '用户所在行政区编码',

    Address             String                              COMMENT '用户地址',

    Power               UInt64                              COMMENT '用电量',

    Deleted             BOOLEAN     DEFAULT 0               COMMENT '数据是否被删除'

)

ENGINE = ReplicatedReplacingMergeTree('/clickhouse/tables/default.PowerConsumption_local/{shard}', '{replica}', Record_Time)

ORDER BY (User_ID, Address)

PARTITION BY District_Code;

CREATE TABLE default.PowerConsumption ON CLUSTER default_cluster AS default.PowerConsumption_local

ENGINE = Distributed(default_cluster, default, PowerConsumption_local, rand());

PowerConsumption_local为本地表，PowerConsumption为对应的分布式表。其中PowerConsumption_local使用ReplicatedReplacingMergeTree表引擎，第三个参数‘Record_Time’表示相同主键的多条数据，只会保留Record_Time最大的一条，我们正是利用ReplacingMergeTree的这一特性来实现数据的更新删除。因此，在选择主键时，我们需要确保主键唯一。这里我们选择(User_ID, Address)来作为主键，因为用户ID加上用户的地址可以确定唯一的一个电表，不会出现第二个相同的电表，所以对于某个电表多条数据，只会保留电量记录时间最新的一条。

然后我们向表中插入10条数据：

INSERT INTO default.PowerConsumption VALUES (0, '2021-10-30 12:00:00', 3, 'Yanta', rand64() % 1000 + 1, 0);

INSERT INTO default.PowerConsumption VALUES (1, '2021-10-30 12:10:00', 2, 'Beilin', rand64() % 1000 + 1, 0);

INSERT INTO default.PowerConsumption VALUES (2, '2021-10-30 12:15:00', 1, 'Weiyang', rand64() % 1000 + 1, 0);

INSERT INTO default.PowerConsumption VALUES (3, '2021-10-30 12:18:00', 1, 'Gaoxin', rand64() % 1000 + 1, 0);

INSERT INTO default.PowerConsumption VALUES (4, '2021-10-30 12:23:00', 2, 'Qujiang', rand64() % 1000 + 1, 0);

INSERT INTO default.PowerConsumption VALUES (5, '2021-10-30 12:43:00', 3, 'Baqiao', rand64() % 1000 + 1, 0);

INSERT INTO default.PowerConsumption VALUES (6, '2021-10-30 12:45:00', 1, 'Lianhu', rand64() % 1000 + 1, 0);

INSERT INTO default.PowerConsumption VALUES (7, '2021-10-30 12:46:00', 3, 'Changan', rand64() % 1000 + 1, 0);

INSERT INTO default.PowerConsumption VALUES (8, '2021-10-30 12:55:00', 1, 'Qianhan', rand64() % 1000 + 1, 0);

INSERT INTO default.PowerConsumption VALUES (9, '2021-10-30 12:57:00', 4, 'Fengdong', rand64() % 1000 + 1, 0);

表中数据如图所示：

假如现在我们要行政区编码为1的所有用户数据都需要更新，我们插入最新的数据：

INSERT INTO default.PowerConsumption VALUES (2, now(), 1, 'Weiyang', rand64() % 100 + 1, 0);

INSERT INTO default.PowerConsumption VALUES (3, now(), 1, 'Gaoxin', rand64() % 100 + 1, 0);

INSERT INTO default.PowerConsumption VALUES (6, now(), 1, 'Lianhu', rand64() % 100 + 1, 0);

INSERT INTO default.PowerConsumption VALUES (8, now(), 1, 'Qianhan', rand64() % 100 + 1, 0);

插入最新数据后，表中数据如图所示：

可以看到，此时新插入的数据与老数据同时存在于表中，因为后台数据文件还没有进行Merge，“替换”还没有发生，这时就需要对查询语句做一些处理来过滤掉老数据，函数argMax(a, b)可以按照b的最大值取a的值，所以通过如下查询语句就可以只获取到最新数据：

SELECT

    User_ID,

    max(Record_Time) AS R_Time,

    District_Code,

    Address,

    argMax(Power, Record_Time) AS Power,

    argMax(Deleted, Record_Time) AS Deleted

FROM default.PowerConsumption

GROUP BY

    User_ID,

    Address,

    District_Code

HAVING Deleted = 0;

查询结果如下图：

为了更方便我们查询，这里可以创建一个视图：

CREATE VIEW PowerConsumption_view ON CLUSTER default_cluster AS

SELECT

    User_ID,

    max(Record_Time) AS R_Time,

    District_Code,

    Address,

    argMax(Power, Record_Time) AS Power,

    argMax(Deleted, Record_Time) AS Deleted

FROM default.PowerConsumption

GROUP BY

    User_ID,

    Address,

    District_Code

HAVING Deleted = 0;

通过该视图，可以查询到最新的数据：

假如现在我们又需要删除用户ID为0的数据，我们需要插入一条User_ID字段为0，Deleted字段为1的数据：

INSERT INTO default.PowerConsumption VALUES (0, now(), 3, 'Yanta', null, 1);

查询视图，发现User_ID为0的数据已经查询不到了：

通过如上方法，我们可以实现Clickhouse数据的更新、删除，就好像在使用OLTP数据库一样，但我们应该清楚，实际上老数据真正的删除是在数据文件Merge时发生的，只有在Merge后，老数据才会真正物理意义上的删除掉。

点击关注，第一时间了解华为云新鲜技术~

ReplacingMergeTree：实现Clickhouse数据更新的更多相关文章

ClickHouse(10)ClickHouse合并树MergeTree家族表引擎之ReplacingMergeTree详细解析
目录建表语法数据处理策略资料分享参考文章 MergeTree拥有主键,但是它的主键却没有唯一键的约束.这意味着即便多行数据的主键相同,它们还是能够被正常写入.在某些使用场合,用户并不希望数据表 ...
clickhouse核心引擎MergeTree子引擎
在clickhouse使用过程中,针对数据量和查询场景,MergeTree是最常用也是较为合适的表引擎.针对特定的业务,MergeTree的子引擎可以针对不同的业务而定,但都基于MergeTree引擎 ...
clickhouse入门到实战及面试
第一章. clickhouse入门一.ClickHouse介绍 ClickHouse(开源)是一个面向列的数据库管理系统(DBMS),用于在线分析处理查询(OLAP). 关键词:开源.面向列.联机分 ...
彪悍开源的分析数据库-ClickHouse
https://zhuanlan.zhihu.com/p/22165241 今天介绍一个来自俄罗斯的凶猛彪悍的分析数据库:ClickHouse,它是今年6月开源,俄语社区为主,好酒不怕巷子深. 本文内 ...
Clickhouse v18编译记录
简介 ClickHouse是"战斗民族"俄罗斯搜索巨头Yandex公司开源的一个极具"战斗力"的实时数据分析数据库,是面向 OLAP 的分布式列式DBMS,圈内 ...
Linux系统：Centos7下搭建ClickHouse列式存储数据库
本文源码:GitHub·点这里 || GitEE·点这里一.ClickHouse简介 1.基础简介 Yandex开源的数据分析的数据库,名字叫做ClickHouse,适合流式或批次入库的时序数据.C ...
ClickHouse
ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告 1 安装前的准备1.1 Cent ...
Clickhouse单机部署以及从mysql增量同步数据
背景: 随着数据量的上升,OLAP一直是被讨论的话题,虽然druid,kylin能够解决OLAP问题,但是druid,kylin也是需要和hadoop全家桶一起用的,异常的笨重,再说我也搞不定,那只能 ...
clickhouse数据库
https://www.jianshu.com/p/a5bf490247ea https://www.cnblogs.com/davygeek/p/8018292.html 开源分布式数据库 htt ...

随机推荐

ecshop二次开发秒杀、限时折扣、清仓等功能
限时抢购,秒杀商品的二次开发 1,先在后台admin/templates 中找goods_info.htm文件到促销部分,改为一个下拉列表的分别是促销,限时,秒杀,值分别是1,2,3这样,代码如下: ...
Apache AB（1） - 快速使用
前言 Apache AB的优缺点十分快捷.简单只适用HTTP协议该工具更加适用于单接口性能压测参数化实现麻烦:被测接口没有太多参数化不支持场景化,不能将上下文串联起来适用于快速开发小的场景 ...
fibnacci数列
斐波那契数列(Fibonacci sequence),又称黄金分割数列.因数学家列昂纳多·斐波那契(Leonardoda Fibonacci)以兔子繁殖为例子而引入,故又称为"兔子数列&qu ...
python序列的修改、散列和切片
新Vector类接原vector类定义的新Vector类,原向量类是二维,现定义多维向量类: from array import array import reprlib import math c ...
解决samba和SELINUX 冲突
在使用Samba进行建立Window与Linux共享时,要是不能访问,出现"您可能没有权限使用网络资源", 那就是SELinux在作怪了要是想让共享目录能访问,可以使用命令 #s ...
P3348-[ZJOI2016]大森林【LCT】
正题题目链接:https://www.luogu.com.cn/problem/P3348 题目大意有\(n\)棵树开始只有一个编号为\(1\)的节点且为标记点.\(m\)次操作要求支持在\(l ...
Windows环境下搭建Hadoop(2.6.0）+Hive(2.2.0)环境并连接Kettle(6.0)
前提:配置JDK1.8环境,并配置相应的环境变量,JAVA_HOME 一.Hadoop的安装 1.1 下载Hadoop (2.6.0) http://hadoop.apache.org/release ...
bug 找不到或无法加载主类main.java.*
开发时遇到的的一个问题,不知道是什么引起的,一个maven springboot 的项目,主类启动的时候报错,说没找到主类,起先怀疑是springboot的问题,随手写一个单独的类,有main方法, ...
解决springboot 配置文件未映射静态资源文件导致shiro拦截静态资源的问题
---------------------------------------------------------------------------------------------------- ...
SphereEx 登陆 ApacheCon Asia｜依托 ShardingSphere 可插拔架构体系打造数据应用完整生态
2021 年 8 月 8 日,ApacheCon 首次亚洲大会于线上正式闭幕.作为久负盛名的开源盛宴,本届 ApacheCon Asia 受到了海内外众多开源领域人士的关注. 作为 Apache 软件 ...

ReplacingMergeTree：实现Clickhouse数据更新

ReplacingMergeTree：实现Clickhouse数据更新的更多相关文章

随机推荐

热门专题