数仓选型必列入考虑的OLAP列式数据库ClickHouse(上)
概述
定义
ClickHouse官网地址 https://clickhouse.com/ 最新版本22.4.5.9
ClickHouse官网文档地址 https://clickhouse.com/docs/zh
ClickHouseGitHub源码地址 https://github.com/ClickHouse/ClickHouse
ClickHouse是俄罗斯的 Yandex 于 2016 年开源的用于在线分析处理查询(OLAP :Online Analytical Processing)MPP架构的列式存储数据库(DBMS:Database Management System),能够使用 SQL 查询实时生成分析数据报告。ClickHouse的全称是Click Stream,Data WareHouse。ClickHouse可以做用户行为分析,流批一体,其线性扩展和可靠性保障能够原生支持 分片和副本,shard + replication,ClickHouse没有走hadoop生态自己实现分布式存储。
- OLAP场景的关键特征
- 绝大多数是读请求
- 数据以相当大的批次(> 1000行)更新,而不是单行更新;或者根本没有更新。
- 已添加到数据库的数据不能修改。
- 对于读取,从数据库中提取相当多的行,但只提取列的一小部分。
- 宽表,即每个表包含着大量的列
- 查询相对较少(通常每台服务器每秒查询数百次或更少)
- 对于简单查询,允许延迟大约50毫秒
- 列中的数据相对较小:数字和短字符串(例如,每个URL 60个字节)
- 处理单个查询时需要高吞吐量(每台服务器每秒可达数十亿行)
- 事务不是必须的
- 对数据一致性要求低
- 每个查询有一个大表。除了他以外,其他的都很小。
- 查询结果明显小于源数据。换句话说,数据经过过滤或聚合,因此结果适合于单个服务器的RAM中
- 很容易可以看出,OLAP场景与其他通常业务场景(例如,OLTP或K/V)有很大的不同, 因此想要使用OLTP或Key-Value数据库去高效的处理分析查询场景,并不是非常完美的适用方案。例如,使用OLAP数据库去处理分析请求通常要优于使用MongoDB或Redis去处理分析请求。
- 列式数据库更适合OLAP场景的原因
- 针对分析类查询,通常只需要读取表的一小部分列。在列式数据库中你可以只读取你需要的数据。例如,如果只需要读取100列中的5列,这将帮助你最少减少20倍的I/O消耗。
- 由于数据总是打包成批量读取的,所以压缩是非常容易的。同时数据按列分别存储这也更容易压缩。这进一步降低了I/O的体积。
- 由于I/O的降低,这将帮助更多的数据被系统缓存。
- CPU
- 向量引擎:所有的操作都是为向量而不是为单个值编写的。这意味着多个操作之间的不再需要频繁的调用,并且调用的成本基本可以忽略不计。操作代码包含一个优化的内部循环。
- 代码生成:生成一段代码,包含查询中的所有操作。
特性
- 真正的列式数据库管理系统:ClickHouse不单单是一个数据库, 它是一个数据库管理系统。因为它允许在运行时创建表和数据库、加载数据和运行查询,而无需重新配置或重启服务.
- 数据压缩:支持通用压缩编解码器之外,ClickHouse还提供针对特定类型数据的专用编解码器。
- 数据的磁盘存储:ClickHouse被设计用于工作在传统磁盘上的系统,它提供每GB更低的存储成本,但如果可以使用SSD和内存,它也会合理的利用这些资源。
- 多核心并行处理
- 多服务器分布式处理
- 支持SQL
- 向量引擎
- 实时的数据更新
- 索引
- 适合在线查询
- 支持近似计算
- 自适应连接算法
- 支持数据复制和数据完整性
- 角色的访问控制
- 限制
- 没有完整的事务支持。
- 缺少高频率,低延迟的修改或删除已存在数据的能力。仅能用于批量删除或修改数据,但这符合 GDPR。
- 稀疏索引使得ClickHouse不适合通过其键检索单行的点查询。
性能
- 单个大查询吞吐量:如果数据被放置在page cache中,则一个不太复杂的查询在单个服务器上大约能够以2-10GB/s(未压缩)的速度进行处理。
- 处理短查询的延迟时间:如果一个查询使用主键并且没有太多行(几十万)进行处理,并且没有查询太多的列,那么在数据被page cache缓存的情况下,它的延迟应该小于50毫秒。
- 处理大量短查询的吞吐量:在相同的情况下,ClickHouse可以在单个服务器上每秒处理数百个查询。
- 写入速度大约为50到200MB/s。如果您写入的数据每行为1Kb,那么写入的速度为50,000到200,000行每秒。
为什么ClickHouse这么快?
- 面向列的存储:源数据通常包含数百甚至数千列,而报表可以只使用其中的少数列。系统需要避免读取不必要的列,否则最昂贵的磁盘读取操作将被浪费。
- 索引:ClickHouse将数据结构保存在内存中,不仅允许读取已使用的列,还允许读取这些列的必要行范围。
- 数据压缩:将同一列的不同值存储在一起通常会带来更好的压缩比(与面向行的系统相比),因为在实际数据中,列的相邻行通常具有相同或不那么多的不同值。除了通用压缩,ClickHouse还支持专门的编解码器,可以使数据更加紧凑。
- 向量化查询执行:ClickHouse不仅在列中存储数据,还在列中处理数据。它可以提高CPU缓存利用率,并允许使用SIMD CPU指令。
- 可伸缩性:ClickHouse可以利用所有可用的CPU核和磁盘执行单个查询。不仅在单个服务器上,而且在集群的所有CPU核和磁盘上也是如此。
安装部署
系统要求
ClickHouse可以在任何具有x86_64,AArch64或PowerPC64LE CPU架构的Linux,FreeBSD或Mac OS X上运行。
官方预构建的二进制文件通常针对x86_64进行编译,并利用SSE 4.2
指令集,因此,除非另有说明,支持它的CPU使用将成为额外的系统需求。下面是检查当前CPU是否支持SSE 4.2的命令:
$ grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"
要在不支持SSE 4.2
或AArch64
,PowerPC64LE
架构的处理器上运行ClickHouse,您应该通过适当的配置调整从源代码构建ClickHouse。
可用安装包
- DEB安装包
- RPM安装包
- Tgz安装包
- Docker安装包
- 其他环境安装包
- 使用源码安装
安装包列表:
clickhouse-common-static
— ClickHouse编译的二进制文件。clickhouse-server
— 创建clickhouse-server
软连接,并安装默认配置服务clickhouse-client
— 创建clickhouse-client
客户端工具软连接,并安装客户端配置文件。clickhouse-common-static-dbg
— 带有调试信息的ClickHouse二进制文件。
单机RPM包安装
单机部署比较简单,执行完下面四条命令就可以通过clickhouse-client来操作了
yum install -y yum-utils
yum-config-manager --add-repo https://packages.clickhouse.com/rpm/clickhouse.repo
yum install -y clickhouse-server clickhouse-client
/etc/init.d/clickhouse-server start
集群部署
ClickHouse集群是一个同质集群,操作步骤如下
- 分别在ckserver1(192.168.5.52)、ckserver2(192.168.5.53)、huawei27(192.168.12.27)这三台上按照上面的单机部署前面3行命令安装ClickHouse服务端。需提前准备Zookeeper,这样使用的是提前建好的3台Zookeeper集群(Zookeeper部署可以查看之前的文章)。
- 在配置文件中设置集群配置。主要配置zookeeper、remote_servers和macros节点数据,而macros数据在每个节点分别配置,ckserver1配置为01,ckserver2配置02,huawei27配置为03,在下面示例为配置一个3个分片和3个副本的集群。
<zookeeper>
<node>
<host>huawei27</host>
<port>2181</port>
</node>
<node>
<host>huawei28</host>
<port>2181</port>
</node>
<node>
<host>huawei29</host>
<port>2181</port>
</node>
</zookeeper>
<remote_servers>
<perftest_3shards_3replicas>
<shard>
<replica>
<host>ckserver1</host>
<port>9000</port>
</replica>
<replica>
<host>ckserver2</host>
<port>9000</port>
</replica>
<replica>
<host>huawei27</host>
<port>9000</port>
</replica>
</shard>
<shard>
<replica>
<host>ckserver1</host>
<port>9000</port>
</replica>
<replica>
<host>ckserver2</host>
<port>9000</port>
</replica>
<replica>
<host>huawei27</host>
<port>9000</port>
</replica>
</shard>
<shard>
<replica>
<host>ckserver1</host>
<port>9000</port>
</replica>
<replica>
<host>ckserver2</host>
<port>9000</port>
</replica>
<replica>
<host>huawei27</host>
<port>9000</port>
</replica>
</shard>
</perftest_3shards_3replicas>
</remote_servers>
<macros>
<shard>01</shard>
<replica>01</replica>
</macros>
修改完配置后分别在三台上执行/etc/init.d/clickhouse-server start,查询集群信息如下
接口
- ClickHouse提供了一个原生命令行客户端
clickhouse-client
客户端支持命令行--host, -h
-– 服务端的host名称, 默认是localhost
。您可以选择使用host名称或者IPv4或IPv6地址。--port
– 连接的端口,默认值:9000。注意HTTP接口以及TCP原生接口使用的是不同端口。--user, -u
– 用户名。 默认值:default
。--password
– 密码。 默认值:空字符串。--query, -q
– 使用非交互模式查询。--database, -d
– 默认当前操作的数据库. 默认值:服务端默认的配置(默认是default
)。--multiline, -m
– 如果指定,允许多行语句查询(Enter仅代表换行,不代表查询语句完结)。--multiquery, -n
– 如果指定, 允许处理用;
号分隔的多个查询,只在非交互模式下生效。--format, -f
– 使用指定的默认格式输出结果。--vertical, -E
– 如果指定,默认情况下使用垂直格式输出结果。这与–format=Vertical
相同。在这种格式中,每个值都在单独的行上打印,这种方式对显示宽表很有帮助。--time, -t
– 如果指定,非交互模式下会打印查询执行的时间到stderr
中。--stacktrace
– 如果指定,如果出现异常,会打印堆栈跟踪信息。--config-file
– 配置文件的名称。--secure
– 如果指定,将通过安全连接连接到服务器。--history_file
— 存放命令历史的文件的路径。--param_<name>
— 查询参数配置。
- HTTP客户端:HTTP接口允许您在任何编程语言的任何平台上使用ClickHouse,HTTP接口比原生接口受到更多的限制,但它具有更好的兼容性。默认情况下,
clickhouse-server
会在8123
端口上监控HTTP请求(这可以在配置中修改)。如果你发送了一个未携带任何参数的GET /
请求,它会返回一个字符串 «Ok.» - MySQL接口:ClickHouse支持MySQL wire通讯协议。
- JDBC驱动
- 官网驱动
- 第三方驱动:
- ClickHouse-Native-JDBC
- clickhouse4j
- ODBC驱动
- C++客户端库
- 第三方工具
- 客户端开发库,支持多种语言如Python、Java、Go、Php、NodeJs、Swift、Ruby、R、Scala、C#、Kotlin等等
- 第三方集成库
- 关系数据库:MySQL、MSSQL、PostgreSQL
- 消息队列:Kafka
- 流处理:Flink
- 对象存储:S3
- 容器编排:Kubernetes
- 监控:Grafana、Prometheus、Zabbix
- 第三方代理
- chproxy
- KittenHouse
- ClickHouse-Bulk
- 第三方开发的可视化界面
- 开源
- Tabix
- HouseOps
- 灯塔
- DBeaver
- clickhouse-cli
- clickhouse-flamegraph
- DBM
- 商业
- Holistics
- DataGrip
- 开源
创建数据库
默认情况下,ClickHouse使用Atomic数据库引擎。它提供了可配置的table engines和SQL dialect。创建一个测试数据库
CREATE DATABASE test ENGINE = Atomic;
use test;
创建数据表
# -m支持多行输入
clickhouse-client -m
使用最常见的MergeTree表引擎创建一张用户信息表user_info
CREATE TABLE user_info
(
id INT,
name String,
age Int8,
sex Int8,
career INT,
birthday Date
) ENGINE = MergeTree()
PARTITION BY toYYYYMM(birthday)
ORDER BY (career, birthday);
# user_info插入两行数据
insert into user_info values(100,'张三',27,1,1000,'1998-05-21'),(101,'李婷',28,2,1001,'2000-07-25');
# 查询user_info数据
select * from user_info;
至此,ClickHouse的环境已经完全准备就绪,下一篇我们先通过一个案例需求学习ClickHouse使用,然后再层层深入。
数仓选型必列入考虑的OLAP列式数据库ClickHouse(上)的更多相关文章
- 数仓选型必列入考虑的OLAP列式数据库ClickHouse(中)
实战 案例使用 背景 ELK作为老一代日志分析技术栈非常成熟,可以说是最为流行的大数据日志和搜索解决方案:主要设计组件及架构如下: 而新一代日志监控选型如ClickHouse.StarRocks特别是 ...
- HAWQ取代传统数仓实践(十九)——OLAP
一.OLAP简介 1. 概念 OLAP是英文是On-Line Analytical Processing的缩写,意为联机分析处理.此概念最早由关系数据库之父E.F.Codd于1993年提出.OLAP允 ...
- 数仓建设 | ODS、DWD、DWM等理论实战(好文收藏)
本文目录: 一.数据流向 二.应用示例 三.何为数仓DW 四.为何要分层 五.数据分层 六.数据集市 七.问题总结 导读 数仓在建设过程中,对数据的组织管理上,不仅要根据业务进行纵向的主题域划分,还需 ...
- 数仓1.1 分层| ODS& DWD层
数仓分层 ODS:Operation Data Store原始数据 DWD(数据清洗/DWI) data warehouse detail数据明细详情,去除空值,脏数据,超过极限范围的明细解析具体表 ...
- 数仓day02
1. 什么是ETL,ETL都是怎么实现的? ETL中文全称为:抽取.转换.加载 extract transform load ETL是传数仓开发中的一个重要环节.它指的是,ETL负责将分布的. ...
- 数据源管理 | OLAP查询引擎,ClickHouse集群化管理
本文源码:GitHub·点这里 || GitEE·点这里 一.列式库简介 ClickHouse是俄罗斯的Yandex公司于2016年开源的列式存储数据库(DBMS),主要用于OLAP在线分析处理查询, ...
- 数仓1.4 |业务数仓搭建| 拉链表| Presto
电商业务及数据结构 SKU库存量,剩余多少SPU商品聚集的最小单位,,,这类商品的抽象,提取公共的内容 订单表:周期性状态变化(order_info) id 订单编号 total_amount 订单金 ...
- CarbonData:大数据融合数仓新一代引擎
[摘要] CarbonData将存储和计算逻辑分离,通过索引技术让存储和计算物理上更接近,提升CPU和IO效率,实现超高性能的大数据分析.以CarbonData为融合数仓的大数据解决方案,为金融转型打 ...
- 传统 BI 如何转大数据数仓
前几天建了一个数据仓库方向的小群,收集了大家的一些问题,其中有个问题,一哥很想去谈一谈--现在做传统数仓,如何快速转到大数据数据呢?其实一哥知道的很多同事都是从传统数据仓库转到大数据的,今天就结合身边 ...
随机推荐
- TL431常用电路整理
熟悉电路制作的人大多对TL431并不陌生.由于TL431的动态抗阻的特性,其经常在电路设计当中被用于替代稳压二极管.不仅如此,TL431的开态响应速度快输出噪音低,并且价格低廉.因此受到电源工程师和初 ...
- c/c++中的i++和++i的区别
使用 i++ vs. ++i i++是先赋值再加1 ++i是先加1再赋值 到目前为止,你已经学习了如何编写下面这样的 C++ for 循环: for (int i = 0; i < 10; i+ ...
- translate3d 对 z-index 居然有影响
在 Mobile 端需要注意. 安卓 默认浏览器 当中如果 div1 div2 如果 div1 有 translate3d 而 div2 没有 那么 div2 的 z-index 会无效. 解决办法: ...
- Socket.io+Notification实现浏览器消息推送
前言 socket.io: 包含对websocket的封装,可实现服务端和客户端之前的通信.详情见官网(虽然是英文文档,但还是通俗易懂).Notification: Html5新特性,用于浏览器的桌面 ...
- js 简易模块加载器 示例分析
前端模块化 关注前端技术发展的各位亲们,肯定对模块化开发这个名词不陌生.随着前端工程越来越复杂,代码越来越多,模块化成了必不可免的趋势. 各种标准 由于javascript本身并没有制定相关标准(当然 ...
- 安装并使用Junit
在Eclipse中配置Junit的方法有两种方式: 第一种方法: 1.下载junit的jar包,目前它的版本是junit3.8.1,可以从www.junit.org上下载. 2.在要使用Junit的p ...
- MySQL---char和varchar的区别
char和varchar的区别 char表示定长, 即长度固定. varchar表示变长, 即长度可变. 当输入数据的长度小于定义的长度时, char会用空格填充, 而varchar则按照实际长度存储 ...
- Java学习day2
今天学习了Java的数据类型.运算符.选择循环结构以及数组. Java所有的关键字全部小写 Java的数据类型与c语言相似,但是c语言定义数组时可以不主动对其初始化,而Java则必须先初始化,有动态和 ...
- gin框架使用【4.请求参数】
GET url: http://127.0.0.1:8080/users?id=1&name=卷毛狒狒 package mainimport ( "github.com/gin-go ...
- 记录一下l联想Y7000安装双系统(win10+ubuntu16.04)
单位新配的联想拯救者Y7000,感觉很不错哈,先上一张图. 说实在的,装这个有些小坑,我最开始是直接在原装win10上去装双系统的,结果死活装不上,还把原装win10给折腾没了,哈哈,好逗,以前装双系 ...