开源OLAP引擎对比

什么是olap

01、绝大多数请求都是读请求

02、数据以相当大的批次(>1000行)更新，而不是单行更新;或者它根本没有更新

03、数据已添加到数据库，但不会进行修改

04、对于读取，每次查询都从数据库中读取大量的行，但是同时又仅需要少量的列

05、表格“宽”，意味着它们包含大量列

06、查询相对较少(通常每台服务器数百个查询或每秒更少)

07、对于简单查询，允许延迟大约50毫秒

08、列中的数据相对较小：一般来说，都是数字和短字符串(例如，每个URL 60个字节)

09、处理单个查询时需要高吞吐量(每个服务器每秒最多数十亿行)

10、Transactions不是必需的

11、对数据一致性要求低

12、每个查询有一个大表。所有其他表都很小，除了这个大表

13、查询结果明显小于源数据。换句话说，数据被过滤或聚合后能够被盛放在单台服务器的内存中

mysql: 少量结构化数据的针对单条记录的增删改查

hbase： 针对海量数据的key-value增删改查

redis: 基于内存的针对key-value类型的增删改查，热数据的缓存

mongodb： 文档数据库 elasticsearch: 针对文件做全文检索的（倒排索引）

clickhouse: 针对海量数据的大量行少量列的聚合查询分析的请求

Druid：由广告公司 MetaMarkets 开源的实时大数据分析引擎，2011 年创建，并于 2012 年开源。主要用于大规模事件流数据（Event Stream Data）的存储和分析。Druid 被阿里、小米、网易、优酷、微博等公司广泛应用。
Presto：Facebook 2013 年开源的 OLAP 工具。Airbnb 和 Dropbox、京东、有赞、微博等公司使用该工具。
Clickhouse：第一大搜索引擎 Yandex 开发的列式储存数据库。 ClickHouse 比 Vertica 约快5倍，比 Hive 快 279 倍。比 My SQL 快 801 倍。字节跳动、阿里、微博......几乎所有主流互联网公司，都会使用到 ClickHouse。

Druid

优点

Druid 支持实时数据摄入，且可以立即查询；
类似其他 OLAP 工具，摄入数据时先预计算，以节省数据存储量级；
列式存储。区别传统行式存储，每次查询要加载整个表，列式存储只需加载指定列数据，大大提升性能。由于列式存储这个优势，目前主流 OLAP 都采用列式存储；
水平扩展。可部署到几十甚至几百台集群，支持万亿条记录查询。

缺点

查询中涉及多个大表之间 join，即：Druid对表关联操作支持很有限。
数据查询对延时要求不高，但对用户某具体行为颗粒度的场景分析。因为预计算会损失用户行为的个性化信息，所以这种情况是不容许进行预计算操作的。

Presto

快！Presto 最大的特点是快，它的设计初衷是解决快速查询大数据问题，期望查询时间是在几秒或者几分钟，因此速度是 Hive 的 10 倍以上；
Presto 可以查询完全基于内存计算的分布式 SQL 查询引擎。所有查询、计算都可以在内存中进行；
Presto 可以接入数据源，包括 Hive、Kafaka、MySQL、Redis 等；
Presto 为标准 SQL，支持复杂 SQL 查询。

缺点

我们知道 Presto 运算时是将查询任务拆分到多个 Worker 机器上去分别进行内存运算。其中哪怕一个 Worker 由于各式各样的原因挂掉（比如内存溢出等），整个 Presto 查询任务就会失败。相比较而言，Hive 的容错性能就要好很多。一台机器挂掉或者被其他计算任务抢占，计算也并不会因此失败。它会重新向 Master 申请资源，继续计算。
Presto 属于纯内存计算，不适合大表之间的多表 join 操作。否则容易引起内存溢出 OOM，造成查询任务失败。
Presto 采用 MPP（Massively Parallel Processing：大规模并行处理）架构，本身 MPP 架构使用场景就是秒级、毫秒级的查询场景，速度很快。但 MPP 有个明显缺点，即短板效应。如果一个 Worker 节点计算慢于其他节点，那整个计算任务都会受限于该节点。在实际工作中，Presto 接入的很可能就是 HDFS 数据源，不同节点的数据不一定分布均匀，这使得不同 Worker 干活效率不一样。而 Hive、Spark 等采用的批处理系统则会避免这一点。

ClickHouse

提供极致的查询性能。比传统数据处理引擎快 100~1000 倍，数据吞吐能力高达50MB~200MB/s。使用体验非常好。
大数据的极低存储成本。ClickHouse 针对 OLAP 场景，开发高效列式存储、数据压缩算法，可以将原数据压缩 10 倍，极大提高单机数据存储和计算能力。可以简单理解为，原来一台机器存储 1TB 原始日志，而采用 ClickHouse 可以存储 10TB 原始日志。
支持 SQL 查询，并同时支持 join 等复杂计算逻辑。ClickHouse 之所以能拥有极致的计算性能，即使简单的查询，ClickHouse 也会使用服务器一半的 CPU 去执行，所以其充分利用了机器的计算资源，并实现单机多核并行计算、集群分布式计算、列存储且列计算等。

缺点

不支持事务操作，即数据的删除、更新。
不支持高并发，建议 QPS 为 100。即每秒查询操作不要超过 100 个。

参考: 奈学教育笔记

开源OLAP引擎对比的更多相关文章

大数据OLAP引擎对比
Presto:内存计算,mpp架构 PB级别数据 presto适合pb级的海量数据查询分析,不是说把pb的数据放进内存,比如一张pb表,查询count,vag这种有个特点,虽然数据很多,但是最终的 ...
Camunda开源流程引擎快速入门——Hello World
市场上比较有名的开源流程引擎有osworkflow.jbpm.activiti.flowable.camunda.由于jbpm.activiti.flowable这几个流程引擎出现的比较早,国内人用的 ...
六大主流开源SQL引擎
导读本文涵盖了6个开源领导者:Hive.Impala.Spark SQL.Drill.HAWQ 以及Presto,还加上Calcite.Kylin.Phoenix.Tajo 和Trafodion.以 ...
六大主流开源SQL引擎总结
本文涵盖了6个开源领导者:Hive.Impala.Spark SQL.Drill.HAWQ 以及Presto,还加上Calcite.Kylin.Phoenix.Tajo 和Trafodion.以及2个 ...
[转帖]OLAP引擎这么多，为什么苏宁选择用Druid？
OLAP引擎这么多,为什么苏宁选择用Druid? 原创 51CTO 2018-12-21 11:24:12 [51CTO.com原创稿件]随着公司业务增长迅速,数据量越来越大,数据的种类也越来越丰富, ...
6大主流开源SQL引擎总结，遥遥领先的是谁？
根据 O’Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言.大部分项目都需要一些SQL 操作,甚至有一些只需要SQL.本文就带你来了解这些主流的开源SQL引擎!背景 ...
你需要知道的MySQL开源存储引擎TokuDB
在四月份的Percona Live MySQL会议上, TokuDB庆祝自己成为开源存储引擎整一周年.我现在仍能记得一年前它刚创建时的官方声明与对它的期望.当时的情况非常有意思,因为它拥有帮助MySQ ...
OLAP了解与OLAP引擎——Mondrian入门
一. OLAP的基本概念 OLAP(On-Line Analysis Processing)在线分析处理是一种共享多维信息的快速分析技术:OLAP利用多维数据库技术使用户从不同角度观察数据:OLAP ...
分布式大数据多维数据分析(olap)引擎kylin[转]
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay 开发并贡献至开源社区.它能在亚秒内查询巨大的Hiv ...

随机推荐

iMindMap不同视图的应用技巧介绍
在刚开始使用iMindMap思维导图软件时,很多用户会习惯性地使用默认的Mind Map视图.因该视图布局自由,用户可以发挥自我创造力,进行多种形式的思维图表创建. 其实,除此之外,iMindMap还 ...
CorelDRAW常用工具之渐变工具
我们在进行宣传单页或者LOGO等等各种平面设计时,颜色的使用是极为重要的一方面.有些新手可能还不知道怎么填充多种颜色的渐变,有的背景色不止2个颜色渐变,而是由多种颜色调成的. 我们在画布上画两个图形, ...
思维导图MindManager属性功能怎么合理使用
在MindManager中为主题添加相应的标注可以使读者更好的理解主题内容,增强导图的可读性,因此,如何在MindManager中为主题添加标注也就成了我们的关注点. 巧妙使用这款思维导图软件的属性功 ...
css3系列之text的常用属性和 Multi-column(多列)
text(文本) white-space: word-break word-wrap/overflow-wrap text-align: word-spacing letter-spacing tex ...
蓝桥杯——螺旋折线(2018JavaB组第7题19分)
螺旋折线(18JB-7-19') 如图p1.pgn所示的螺旋折线经过平面上所有整点恰好一次. 对于整点(X, Y),我们定义它到原点的距离dis(X, Y)是从原点到(X, Y)的螺旋折线段的长度. ...
C语言讲义——变量的输出
变量输出·常规头文件:stdio.h 函数: printf("%", ); 需要占位符%_,要输出几个变量就需要几个占位符. 类型占位符助记 int %d d表示十进制dec ...
Java集合【8】-- ArrayList源码分析
目录 1. ArrayList 1.1 ArrayList特点介绍 1.2 实现的接口和继承的类 2. 成员变量 3. 构造方法 4. 常用增删改查方法添加元素查询元素更新元素删除元素 5.自 ...
[笔记] dumpsys meminfo数据与smaps文件对应关系
通过cat /proc/$PID/smaps可以查看进程内存的详细映射情况.详细解析可以参考kernel的文档/Documentation/filesystems/proc.txt 如果我们的Andr ...
C语言实现聊天室(windows版本)
来源:微信公众号「编程学习基地」目录 C语言聊天室运行效果分析设计多线程线程的同步服务端设计遇到的问题 C语言聊天室基于 tcp 实现群聊功能,本项目设计是在windows环境下基于套 ...
python 爬取喜马拉雅节目生成RSS Feed
记录于:2020年12月03日用了N年的手机在经历N次掉落之后终于扛不住了,后背都张嘴了,估计再摔一次电池都能飞出来.换了手机,由于之前有听喜马拉雅的习惯,但是手机里自带有播客软件,强迫症逼着我不能下 ...