ClickHouse在大数据领域应用实践
一、序言
面向大数据量查询数据库,优点是在较大数据量(千万级)的前提下具有较好的查询性能。
1、应用场景
ClickHouse应用于OLAP(在线分析处理)领域,具体来说满足如下特点使用此技术比较合适:
- 事务型数据库表通过连表查询转换成宽表
- 聚合(统计)计算使用较多
- 对查询效率要求较高,有限时间范围内能够容忍非幂等性查询(最终一致性)
2、学习姿势
大多数学习ClickHouse是从OLTP数据库开始的,比如Mysql数据库。对于千万级别的数据,以InnoDB为存储引擎的表,仅仅是统计表行数这一需求,执行效率很低,对于一些聚合函数,相应延迟同样无法接受。
提高数据库硬件水平,一定程度上能够改善查询效率问题,但仍然不能彻底解决查询效率问题。ClickHouse一推出就大火更加印证开发者在较大数据量的前提下希望有个合理查询效率的需求是多么的急切。
以典型的Mysql数据库读写分离为例,横向对比ClickHouse,对比Mysql为何查询慢以及ClickHouse为何查询要快,在此基础上综合考虑OLTP如何与OLAP协同工作。
二、知识储备
(一)磁盘IO
1、数据量与查询效率
数据量在超过一定边界后,查询效率急剧下降,造成查询效率低下的主要原因是磁盘IO。比如Mysql数据库,通过服务器优化(增加硬件资源消耗),能够提高一定的性能,并不能从软件层次有效提高查询效率。
千万级别的大表,查询性能较低,主要涉及磁盘这块,影响因素有两条:一是数据索引定位;二是磁盘IO。
(二)性能对比
1、磁盘工作机制
操作系统从磁盘读取数据到内存中,大体经过如下过程:索引到数据存储位置;以页为单位IO数据。其中数据索引完毕,IO过程相对较快(速度与内存IO不是一个数量级)。
磁盘页IO表示在磁盘页上命中一条记录与全部命中,IO时间相同。实际使用过程中,查询一条记录与多条连续记录有时候时间相似(底层逻辑都是从磁盘IO一个磁盘页的数据)。
2、按行(列)存储
通过简单示例比较按行存储与按列存储对查询的影响,主要以磁盘IO最为技术指标。测试数据量为千万级别。
CREATE TABLE `human_name` (
`id` bigint(20) NOT NULL COMMENT 'ID',
`name` varchar(32) DEFAULT NULL COMMENT '名称',
`deleted` tinyint(1) NOT NULL DEFAULT '0' COMMENT '逻辑删除',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
`update_time` datetime DEFAULT NULL ON UPDATE CURRENT_TIMESTAMP COMMENT '更新时间',
`delete_time` datetime DEFAULT NULL COMMENT '删除时间',
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='人名信息表';
通过不同的场景,对比不同存储方式在磁盘IO上的消耗,进而比较查询效率。
(1)通过id查询name
存储方式 | 索引方式 | 磁盘IO | 执行过程 |
---|---|---|---|
行存储 | 哈希索引O(1) BTree索引O(logN) |
整行数据 | 磁盘上执行选择操作,内存执行投影操作 |
列存储 | 主键稀疏索引+二级索引 | 单行name列数据 | 在磁盘上执行选择操作同时完成了投影操作 |
行存储在索引上节约时间;列存储在磁盘IO上节约时间,数据量较小可以忽略差异,本回合二者持平。
(2)通过批id查询name
批查询是指有限区间查询或者有限集合查询,数据量百条以内。有限区间查询与有限集合查询,对应的数据量较小,性能表现差别不大。仔细分析过程,二者仍然存在明显的差异。
区间查询的效率比有限集合查询效率要高,原因如下:区间查询数据存储是连续的,单次数据索引,单页磁盘IO(数据量较小),紧凑的数据查询,按行存储略占优势,考虑到是查询单个字段,因此磁盘数据索引次数均为一次(按列查询多少列即索引多少次)。
集合查询由于查询条件非连续,需要单独索引并完成磁盘IO,集合中有N个元素(随机)需要索引N次,以页为单位的磁盘IO
(3)通过id查询整行数据
按列存储通常比按行存储的查询效率要高,对于宽表(几十列以上的聚合表),效果更加明显。对于查询,更多的需求是查询某列数据或者某几列数据,按列存储的数据库能够大大减少磁盘数据的扫描范围以及磁盘与内存之间的IO,从IO层面提高了查询效率。
极端情况
数据库存储id和name数据,两者都是非空的必选数据,这种情况下按行(列)存储从IO层面来讲是相似的,数据在磁盘上扫描范围和读写IO差不多。通过id查询name或者批量id查询name,借助于哈希索引,按行存储可能具有O(1)的时间复杂度。
实际数据不可能这么纯粹,行记录通常会有保存时间、修改时间、删除时间、部分核心字段的修改时间,数据量较少时,附属字段对查询的影响较小,一旦数据量超过一定阀值,对查询的影响逐步凸显。按列存储能够忽略附属字段的磁盘扫描与IO。
综合来讲,从查询的角度来讲,按列存储要优于按行存储。
三、基础知识
(一)表结构
clickhouse使用的表结构与常见的关系数据库有一定的区别。
1、排序
在合并树家族引擎中,表排序属性是必选项。通过ORDER BY
关键字设置分区内数据的排序策略,数据在导入或者保存时按照排序策略有序存储,有序数据直接存储在磁盘中,查询时具有较高的效率。
排序列也是索引列,高频用作查询条件的字段添加到排序列有利于提高查询效率。
2、主键
主键的定义比较奇怪,仅仅是起到过滤查询索引的作用,没有唯一约束的效果。
当设置有主键时,主键字段必需包含在排序属性中,且从左到右依次展开。
3、默认值
Null类型几乎总是会拖累性能,原因如下:空值无法被索引;需要使用额外的特殊占位符单独处理。按列存储每列数据个数一致有利于数据查询。
数据在导入之前需要做空值处理,将空值替换成与业务无关的数据。
(二)表引擎
clickhouse表引擎非常丰富,其中最常用的是合并树家族引擎。
1、MergeTree
MergeTree引擎能够实现较大数据量的查询需求,由于主键没有唯一索引约束,存在重复行的情况。在数据迁移的过程中,不可避免会出现重复数据导入的情况,业务上能够容忍部分重复数据,或者从应用端处理重复数据,可以选择此引擎。
CREATE TABLE test_tbl (
id UInt16,
create_time Date,
comment Nullable(String)
) ENGINE = MergeTree()
PARTITION BY toYYYYMMDD(create_time)
ORDER BY (create_time)
PRIMARY KEY (id)
TTL create_time + INTERVAL 1 MONTH
SETTINGS index_granularity=8192;
MergeTree
引擎必需指定排序字段。
属性 | 含义 | 备注 |
---|---|---|
ORDER BY | 指定排序字段(必选) | 指定一个或者多个字段作为排序字段(分区内排序) |
PARTITION BY | 指定分区规则 | 一般而言以日期作为表分区的策略 |
PRIMARY KEY | 主键字段 | 主键元素可以重复并且能够指定多个字段 |
TTL | 记录过期时间 | 可以指定记录的过期时间 |
SETTINGS | 稀疏索引间隔 | 无特别需求使用默认值即可 |
MergeTree的主键的作用是加速查询,不是类似MySQL保持记录唯一。
2、ReplacingMergeTree
ReplacingMergeTree引擎用来去除重复行,此处的去重有三个层次的含义:在分区内去重;以主键字段为比较对象;数据去重实践只会在合并时发生。
-- 强制后台合并,去重时所在表停止服务
optimize table test_tbl_replacing final;
ReplacingMergeTree提供了主键去重的能力,但是仍旧有以下限制:
- optimize是后台动作,无法预测具体执行时间点;
- 在没有彻底optimize之前,不能确定是否仍有重复数据;
- 手动执行optimize在海量数据场景下要消耗大量时间,无法满足业务即时查询的需求;
- 在分布式场景下,相同primary key的数据可能被sharding到不同节点上,不同shard间可能无法去重;
ReplacingMergeTree更多用于确保数据最终被去重,无法保证查询过程中主键不重复。
ReplacingMergeTree(create_time)填入参数为版本字段,重复记录保留版本号最大最在行;允许为空,默认保留重复行最后插入的记录。
去重深刻理解
这里的去重并不能达到关系型数据库严格意义去重的目的,使用时需要注意这个现象。另外不能以非黑即白的想法考虑这个问题,ClickHouse在提高查询速度时做了一定的妥协。
3、SummingMergeTree
SummingMergeTree提供的是一种预聚合引擎,等效为以order by
字段为单位分组,然后执行聚合求和操作,不过这些结果是提前计算好了的,查询时不需要实时计算。
如果聚合的值不满足要求,可以在查询结果集上通过聚合函数再次聚合,此时属于实时计算。
(三)内置函数
常见的内置函数需要特别指出,新建表模式、数据导入等方面会有应用。
1、格式化日期
格式化分区函数常用于表的分区设置,以天为单位的分区是常见的分区设置。
select toYYYYMMDD(now())
2、哈希函数
以name字段的哈希字符串作为分区策略。
CREATE TABLE default.test02 (
`id` UInt16,
`name` String,
`create_time` Date) ENGINE = MergeTree()
PARTITION BY LOWER(hex(MD5(name)))
PRIMARY KEY id
ORDER BY (id,create_time);
表可以不设置主键,一旦设置主键,那么表必选排序属性必需以主键的顺序依次展开。
直接用原始字符串字段值作为分区策略也是可行的,考虑到字符串的值域范围比较广,用哈希函数处理会比较安全。
3、日期函数
获取各种日期函数,如果不指定时区,默认读取宿主机的时区信息。
SELECT toDateTime(now()) AS t1,
toDate(now()) AS t2,
toDate(now(), 'Asia/Shanghai') AS t3,
toString(now()) AS t4
四、安装与配置
版本选择长期支持版本20.8
,采用手动安装的方式进行。
(一)安装
rpm -ivh clickhouse-server-20.8.19.4-2.noarch.rpm
rpm -ivh clickhouse-client-20.8.19.4-2.noarch.rpm
rpm -ivh clickhouse-common-static-20.8.19.4-2.x86_64.rpm
(二)配置
1、正则替换注释
使用模式<!-[\s\S]*?->$
查询配置XML配置文件中所有注释。
# 格式化XML文件
xmllint --format config.xml
2、服务端配置文件
服务端配置文件有两个config.xml
和users.xml
,前者是只读配置,后者可以在运行时动态修改。
五、小结
ClickHouse生态在快速迭代,很多亮眼的功能尚处于开发中或者测试中,这里选取部分特性与大家分享。
ClickHouse在大数据领域应用实践的更多相关文章
- Kona JDK 在腾讯大数据领域内的实践与发展
导语 | 近日,云+社区技术沙龙“腾讯开源技术”圆满落幕.本次沙龙邀请了多位腾讯技术专家,深度揭秘了腾讯开源项目TencentOS tiny.TubeMQ.Kona JDK.TARS以及Medical ...
- 《Hadoop大数据架构与实践》学习笔记
学习慕课网的视频:Hadoop大数据平台架构与实践--基础篇http://www.imooc.com/learn/391 一.第一章 #,Hadoop的两大核心: #,HDFS,分布式文件系统 ...
- 大数据领域两大最主流集群管理工具Ambari和Cloudera Manger
不多说,直接上干货! 目前啊,都知道,大数据集群管理方式分为手工方式(Apache hadoop)和工具方式(Ambari + hdp 和Cloudera Manger + CDH). 手工部署呢, ...
- 大数据平台迁移实践 | Apache DolphinScheduler 在当贝大数据环境中的应用
大家下午好,我是来自当贝网络科技大数据平台的基础开发工程师 王昱翔,感谢社区的邀请来参与这次分享,关于 Apache DolphinScheduler 在当贝网络科技大数据环境中的应用. 本次演讲主要 ...
- 这可能是AI、机器学习和大数据领域覆盖最全的一份速查表
https://mp.weixin.qq.com/s?__biz=MjM5ODE1NDYyMA==&mid=2653390110&idx=1&sn=b3e5d6e946b719 ...
- 免费大数据搜索引擎 xunsearch 实践
以前在IBM做后端开发时,也接触过关于缓存技术,当时给了n多文档来学习,后面由于其他紧急的项目,一直没有着手去仔细研究这个技术,即时后来做Commerce的时候,后台用了n多缓存技术,需要build ...
- 关于大数据领域各个组件打包部署到集群运行的总结(含手动和maven)(博主推荐)
对于这里的打包,总结: (1) 最简单的,也是为了适应公司里,还是要用maven,当然spark那边sbt,maven都可以.但是maven居多. Eclipse/MyEclipse下如何Ma ...
- 开源大数据生态下的 Flink 应用实践
过去十年,面向整个数字时代的关键技术接踵而至,从被人们接受,到开始步入应用.大数据与计算作为时代的关键词已被广泛认知,算力的重要性日渐凸显并发展成为企业新的增长点.Apache Flink(以下简称 ...
- 【云+社区极客说】新一代大数据技术:构建PB级云端数仓实践
本文来自腾讯云技术沙龙,本次沙龙主题为构建PB级云端数仓实践 在现代社会中,随着4G和光纤网络的普及.智能终端更清晰的摄像头和更灵敏的传感器.物联网设备入网等等而产生的数据,导致了PB级储存的需求加大 ...
随机推荐
- Java实现抽奖模块的相关分享
Java实现抽奖模块的相关分享 最近进行的项目中,有个抽奖的需求,今天就把相关代码给大家分享一下. 一.DAO层 /** * 获取奖品列表 * @param systemVersion 手机系统版本( ...
- 干掉 Postman?测试接口直接生成API文档,ApiPost真香!
实不相瞒我的收藏夹里躺着很多优质的开发工具,我有个爱好平时遇到感兴趣的开发工具都会记录下来,然后有时间在慢慢研究.前几天刚给同事分享一款非常好用的API文档工具,真的被惊艳到了,粉丝朋友们也感受一下吧 ...
- HDC2021技术分论坛:组件通信、硬件池化,这些创新技术你get了吗?
作者:ligang 华为分布式硬件技术专家,sunbinxin 华为应用框架技术专家 HarmonyOS是一款全新的分布式操作系统,为开发者提供了元能力框架.事件通知.分布式硬件等分布式技术,使能开发 ...
- 将待授权的数据库的dbowner指派给该用户
USE 数据库goEXEC dbo.sp_changedbowner N'账号'
- JUC之文章整理以及汇总
JUC文章汇总 JUC部分将学习<JUC并发编程的艺术>和<尚硅谷-大厂必备技术之JUC并发编程>进行博客的整理,各文章中也会不断的完善和丰富. JUC概述 JUC的视频学习和 ...
- pytest文档3-测试用例setup和teardown
用例运行级别 模块级(setup_module/teardown_module)开始于模块始末,全局的 函数级(setup_function/teardown_function)只对函数用例生效(不在 ...
- golang中的标准库context
在 Go http包的Server中,每一个请求在都有一个对应的 goroutine 去处理.请求处理函数通常会启动额外的 goroutine 用来访问后端服务,比如数据库和RPC服务.用来处理一个请 ...
- 集合框架-工具类-JDK5.0特性-静态导入
1 package cn.itcast.p4.news.demo; 2 3 import java.util.ArrayList; 4 //import java.util.Collections; ...
- Kubernetes:故障排查(Trouble Shooting)方法总结
Blog:博客园 个人 本文部分内容源自网络,侵删. 概述 为了跟踪和发现在Kubernetes集群中运行的容器应用出现的问题,我们常用如下排查方法: 查看Kubernetes对象的当前运行时信息,特 ...
- 带你十天轻松搞定 Go 微服务系列(六)
序言 我们通过一个系列文章跟大家详细展示一个 go-zero 微服务示例,整个系列分十篇文章,目录结构如下: 环境搭建 服务拆分 用户服务 产品服务 订单服务 支付服务(本文) RPC 服务 Auth ...