简介：本文翻译自 Altinity 针对 ClickHouse 的系列技术文章。面向联机分析处理（OLAP）的开源分析引擎 ClickHouse，因其优良的查询性能，PB级的数据规模，简单的架构，被国内外公司广泛采用。本系列技术文章，将详细展开介绍 ClickHouse。

前言

本文翻译自 Altinity 针对 ClickHouse 的系列技术文章。面向联机分析处理（OLAP）的开源分析引擎 ClickHouse，因其优良的查询性能，PB 级的数据规模，简单的架构，被国内外公司广泛采用。

阿里云 EMR-OLAP 团队，基于开源 ClickHouse 进行了系列优化，提供了开源 OLAP 分析引擎 ClickHouse 的云上托管服务。EMR ClickHouse 完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础上优化了 ClickHouse 的读写性能，提升了 ClickHouse 与 EMR 其他组件快速集成的能力。访问 ClickHouse - E-MapReduce - 阿里云了解详情。

译者：何源（荆杭），阿里云计算平台事业部高级产品专家

ClickHouse 聚合函数和聚合状态

ClickHouse 可能有一个独特的功能——聚合状态（除了聚合函数外）。你可以参考和组合子的文档。

简而言之，许多数据库使用概率数据结构，例如 HyperLogLog（简称 HLL）。它用于唯一/去重计算，你可以在Spark、ElasticSearch、Flink、Postgres、BigQuery 和 Redis 等服务中看到它的效果。但通常你只能在聚合函数中应用此函数一次，例如查询每月唯一用户数——得到一个数字，这样就知足了。由于 HLL 结构没有对应的内部格式，因此无法重用预聚合或部分聚合的数据。而在 ClickHouse 中，你可以这样做，因为 HLL 结构是一致的。

ClickHouse 的速度非常快，其基本思路是处理原始数据而不是预聚合数据。但是让我们做个实验。例如，我们需要为上个月的唯一用户数计算一些指标。

设想：每天预聚合，然后汇总所有结果。这就是所谓的存储空间方法——以后你可以只汇总最后 30 个测量值来计算上个月的统计数据，或者只汇总最后 7 个测量值来计算上周的统计数据。

创建我们的预聚合表：

create table events_unique (

  date Date,

  group_id String,

  client_id String,

  event_type String,

  product_id String,

  value AggregateFunction(uniq, String)

) ENGINE = MergeTree(date, (group_id, client_id, event_type, product_id, date), 8192);

这里将我的聚合声明为 AggregateFunction(uniq, String)。我们关注的是一些独特的指标，这些指标是在 String 列上计算的（为了进一步优化，你可能应该使用 FixedString 或二进制数据）。

让我们将数据插入预聚合表：

INSERT INTO events_unique

SELECT date, group_id, client_id, event_type, product_id, uniqState(visitor_id) AS value

  FROM events

 GROUP BY date, group_id, client_id, event_type, product_id;

进行冒烟测试，确认其可以正常运行：

SELECT uniqMerge(value) FROM events_unique GROUP BY product_id;

现在让我们比较原始表和预聚合表的查询性能。原始查询：

SELECT uniq(visitor_id) AS c

  FROM events

 WHERE client_id = ‘aaaaaaaa’

   AND event_type = ‘click’

   AND product_id = ‘product1’

   AND date >= ‘2017–01–20’

   AND date < ‘2017–02–20’;

┌──────c─┐

│ 457954 │

└────────┘

1 rows in set. Elapsed: 0.948 sec. Processed 13.22 million rows, 1.61 GB (13.93 million rows/s., 1.70 GB/s.)

预聚合表的结果：

SELECT uniqMerge(value) AS c

  FROM events_unique

 WHERE client_id = ‘aaaaaaaa’

   AND event_type = ‘click’

   AND product_id = ‘product1’

   AND date >= ‘2017–01–20’

   AND date < ‘2017–02–20’;

┌──────c─┐

│ 457954 │

└────────┘

1 rows in set. Elapsed: 0.050 sec. Processed 39.39 thousand rows, 8.55 MB (781.22 thousand rows/s., 169.65 MB/s.)

结果表明，我们的处理时间缩短到 1/20。

在实践中，将物化视图与 AggregatingMergeTree 引擎结合使用，会比使用单独的表更方便。

总结

ClickHouse 可让你将聚合状态存储在数据库中，而不仅仅是存储在业务应用中，这有望带来颇具吸引力的性能优化和新用例。有关更多详细信息，请查看关于 AggregatingMergeTree 引擎的丰富文档。

后续

您已经了解了在 ClickHouse 中处理实时更新相关内容，本系列还包括其他内容：

在 ClickHouse 中处理实时更新
使用新的 TTL move，将数据存储在合适的地方
在 ClickHouse 物化视图中使用 Join
ClickHouse 聚合函数和聚合状态（本文）
ClickHouse 中的嵌套数据结构

原文链接

本文为阿里云原创内容，未经允许不得转载。

【ClickHouse 技术系列】- ClickHouse 聚合函数和聚合状态的更多相关文章

【SqlServer系列】聚合函数
1 概述本篇文章简要回顾SQL Server 聚合函数,MAX,MIN,SUM,AVG,SUM,CHECKSUM_EGG,COUNT,STDEV,STDEVP,VAR,VARP. 2 具体 ...
Sql Server系列：聚合函数
1 SUM SUM是一个求和函数,返回指定列值的总和.SUM 只能用于数字列. 其中忽略 Null 值. 语法 SUM ( [ ALL | DISTINCT ] expression ) OVER ( ...
ClickHouse源码笔记5:聚合函数的源码再梳理
笔者在源码笔记1之中分析过ClickHouse的聚合函数的实现,但是对于各个接口函数的实际如何共同工作的源码,回头看并没有那么明晰,主要原因是没有结合Aggregator的类来一起分析聚合函数的是如果 ...
ClickHouse源码笔记1:聚合函数的实现
由于工作的需求,后续笔者工作需要和开源的OLAP数据库ClickHouse打交道.ClickHouse是Yandex在2016年6月15日开源了一个分析型数据库,以强悍的单机处理能力被称道. 笔者在实 ...
ClickHouse学习系列之三【配置文件说明】
背景最近花了些时间看了下ClickHouse文档,发现它在OLAP方面表现很优异,而且相对也比较轻量和简单,所以准备入门了解下该数据库系统.在介绍了安装和用户权限管理之后,本文对其配置文件做下相关的 ...
ClickHouse学习系列之五【系统库system说明】
背景之前介绍过ClickHouse相关的系列文章,现在ClickHouse已经能正常使用起来了,包括副本和分片.因为ClickHouse已经可以提供服务了,现在需要关心的就是服务期间该数据库的各项性 ...
ClickHouse学习系列之八【数据导入迁移&同步】
背景在介绍了一些ClickHouse相关的系列文章之后,大致对ClickHouse有了比较多的了解.它是一款非常优秀的OLAP数据库,为了更好的来展示其强大的OLAP能力,本文将介绍一些快速导入大量 ...
微软BI 之SSAS 系列 - 多维数据集中度量值设计时的聚合函数 (累加性_半累加性和非累加性)
在 SSAS 系列 - 实现第一个 Cube 以及角色扮演维度,度量值格式化和计算成员的创建中主要是通过已存在的维度和事实数据创建了一个多维数据集,并同时解释了 Role-Playing Dimen ...
SQL Server温故系列(4)：SQL 查询之集合运算 & 聚合函数
1.集合运算 1.1.并集运算 UNION 1.2.差集运算 EXCEPT 1.3.交集运算 INTERSECT 1.4.集合运算小结 2.聚合函数 2.1.求行数函数 COUNT 2.2.求和函数 ...
Spark 系列（十一）—— Spark SQL 聚合函数 Aggregations
一.简单聚合 1.1 数据准备 // 需要导入 spark sql 内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSe ...

随机推荐

16_AAC解码实战
本文主要讲解:如何将AAC编码后的数据解码成PCM. 命令行用法非常简单: ffmpeg -c:a libfdk_aac -i in.aac -f s16le out.pcm -c:a libfdk ...
如何用数字人技术让课堂活起来？番职院和3DCAT实时云渲染给出答案
2023年4月20日,广州市第二届智慧教育成果巡展活动在番禺职业技术学院(下文简称番职院)举行,本次活动的主题是''智能AI助教-让课堂活起来''. 活动现场,瑞云科技受邀展示了其自主研发的瑞云数字人 ...
如何理解UDP 和 TCP? 区别? 应用场景?
一.UDP UDP(User Datagram Protocol),用户数据包协议,是一个简单的面向数据报的通信协议,即对应用层交下来的报文,不合并,不拆分,只是在其上面加上首部后就交给了下面的网络层 ...
如何打造一个花里胡哨的Github个人主页？
1.介绍 2.使用 2.1.创建一个同名仓库 2.2.引用模板 2.3.为内容添加有趣模块 2.3.1.徽章badge 2.3.2.waka 时间展示 2.3.3.展示 GitHub stars 等信 ...
常用命令--htpasswd--（网站加密）
常用命令htpasswd(网站加密) 常用选项 htpasswd 是一个用于创建和管理HTTP基本认证密码文件的命令行工具,通常与Apache Web服务器一起使用.以下是 htpasswd 常用选项 ...
舒服了，学习了，踩到一个 Lombok 的坑！
你好呀,我是歪歪. 踩坑了啊,最近踩了一个 lombok 的坑,有点意思,给你分享一波. 我之前写过一个公共的服务接口,这个接口已经有好几个系统对接并稳定运行了很长一段时间了,长到这个接口都已经交接给 ...
【K8S】如何进入kubernetes的一个pod
如何进入kubernetes的一个pod呢,其实和进入docker的一个容器相似: 进入docker容器 : docker exec -ti <your-container-name> / ...
verilog设计知识集合（2）
verilog设计知识集合(2) 1.阻塞与非阻塞阻塞赋值是存在先后关系的,非阻塞是不存在先后关系的.一般而言,阻塞用于组合逻辑,非阻塞用于时序逻辑(不一定).阻塞的执行时逐步赋值,非阻塞是同步赋值 ...
OpenHarmony技术挑战课题征集
OpenHarmony技术挑战课题征集 OpenAtom OpenHarmony(以下简称"OpenHarmony")是由开放原子开源基金会(OpenAtom Foundation ...
winrt新dx截图最小实现
转自:https://stackoverflow.co/questions/11283015 效果还是很不错的 #include <iostream> #include <Windo ...

【ClickHouse 技术系列】- ClickHouse 聚合函数和聚合状态

前言

ClickHouse 聚合函数和聚合状态

总结

后续

【ClickHouse 技术系列】- ClickHouse 聚合函数和聚合状态的更多相关文章

随机推荐

热门专题