Druid 是什么

　　Druid 单词来源于西方古罗马的神话人物，中文常常翻译成德鲁伊。

　　本问介绍的Druid 是一个分布式的支持实时分析的数据存储系统（Data Store）。美国广告技术公司MetaMarkets 于2011 年创建了Druid 项目，并且于2012 年晚期开源了Druid 项目。Druid 设计之初的想法就是为分析而生，它在处理数据的规模、数据处理的实时性方面，比传统的OLAP 系统有了显著的性能改进，而且拥抱主流的开源生态，包括Hadoop 等。多年以来，Druid 一直是非常活跃的开源项目。

　　Druid 的官方网站是http://druid.io。

　　另外，阿里巴巴也曾创建过一个开源项目叫作Druid（简称阿里Druid），它是一个数据库连接池的项目。阿里Druid 和本问讨论的Druid 没有任何关系，它们解决完全不同的问题。

大数据分析和Druid

　　大数据一直是近年的热点话题，随着数据量的急速增长，数据处理的规模也从GB 级别增长到TB 级别，很多图像应用领域已经开始处理PB 级别的数据分析。大数据的核心目标是提升业务的竞争力，找到一些可以采取行动的洞察（Actionable Insight），数据分析就是其中的核心技术，包括数据收集、处理、建模和分析，最后找到改进业务的方案。

　　最近一两年，随着大数据分析需求的爆炸性增长，很多公司都经历过将以关系型商用数据库为基础的数据平台，转移到一些开源生态的大数据平台，例如Hadoop 或Spark 平台，以可控的软硬件成本处理更大的数据量。Hadoop 设计之初就是为了批量处理大数据，但数据处理实时性经常是它的弱点。例如，很多时候一个MapReduce 脚本的执行，很难估计需要多长时间才能完成，无法满足很多数据分析师所期望的秒级返回查询结果的分析需求。

　　为了解决数据实时性的问题，大部分公司都有一个经历，将数据分析变成更加实时的可交互方案。其中，涉及新软件的引入、数据流的改进等。数据分析的几种常见方法如下图。

　　整个数据分析的基础架构通常分为以下几类。

（1）使用Hadoop/Spark 的MR 分析。

（2）将Hadoop/Spark 的结果注入RDBMS 中提供实时分析。

（3）将结果注入到容量更大的NoSQL 中，例如HBase 等。

（4）将数据源进行流式处理，对接流式计算框架，如Storm，结果落在RDBMS/NoSQL 中。

（5）将数据源进行流式处理，对接分析数据库，例如Druid、Vertica 等。

Druid 的三个设计原则

　　在设计之初，开发人员确定了三个设计原则（Design Principle）。

（1）快速查询（Fast Query）：部分数据的聚合（Partial Aggregate）+内存化（In-emory）+索引（Index）。

（2）水平扩展能力（Horizontal Scalability）：分布式数据（Distributed Data）+ 并行化查询（Parallelizable Query）。

（3）实时分析（Realtime Analytics）：不可变的过去，只追加的未来（Immutable Past，Append-Only Future）。

1 快速查询（Fast Query）

　　对于数据分析场景，大部分情况下，我们只关心一定粒度聚合的数据，而非每一行原始数据的细节情况。因此，数据聚合粒度可以是1 分钟、5 分钟、1 小时或1 天等。部分数据聚合（Partial Aggregate）给Druid 争取了很大的性能优化空间。

　　数据内存化也是提高查询速度的杀手锏。内存和硬盘的访问速度相差近百倍，但内存的大小是非常有限的，因此在内存使用方面要精细设计，比如Druid 里面使用了Bitmap 和各种压缩技术。

另外，为了支持Drill-Down 某些维度，Druid 维护了一些倒排索引。这种方式可以加快AND 和OR 等计算操作。

2 水平扩展能力（Horizontal Scalability）

　　Druid 查询性能在很大程度上依赖于内存的优化使用。数据可以分布在多个节点的内存中，因此当数据增长的时候，可以通过简单增加机器的方式进行扩容。为了保持平衡，Druid按照时间范围把聚合数据进行分区处理。对于高基数的维度，只按照时间切分有时候是不够的（Druid 的每个Segment 不超过2000 万行），故Druid 还支持对Segment 进一步分区。

　　历史Segment 数据可以保存在深度存储系统中，存储系统可以是本地磁盘、HDFS 或远程的云服务。如果某些节点出现故障，则可借助Zookeeper 协调其他节点重新构造数据。

　　Druid 的查询模块能够感知和处理集群的状态变化，查询总是在有效的集群架构中进行。集群上的查询可以进行灵活的水平扩展。Druid 内置提供了一些容易并行化的聚合操作，例如Count、Mean、Variance 和其他查询统计。对于一些无法并行化的操作，例如Median，Druid暂时不提供支持。在支持直方图（Histogram）方面，Druid 也是通过一些近似计算的方法进行支持，以保证Druid 整体的查询性能，这些近似计算方法还包括HyperLoglog、DataSketches的一些基数计算。

3 实时分析（Realtime Analytics）

　　Druid 提供了包含基于时间维度数据的存储服务，并且任何一行数据都是历史真实发生的事件，因此在设计之初就约定事件一但进入系统，就不能再改变。

　　对于历史数据Druid 以Segment 数据文件的方式组织，并且将它们存储到深度存储系统中，例如文件系统或亚马逊的S3 等。当需要查询这些数据的时候，Druid 再从深度存储系统中将它们装载到内存供查询使用。

Druid 的技术特点

　　Druid 具有如下技术特点。

• 数据吞吐量大。

• 支持流式数据摄入和实时。

• 查询灵活且快。

• 社区支持力度大。

1 数据吞吐量大

　　很多公司选择Druid 作为分析平台，都是看中Druid 的数据吞吐能力。每天处理几十亿到几百亿的事件，对于Druid 来说是非常适合的场景，目前已被大量互联网公司实践。因此，很多公司选型Druid 是为了解决数据爆炸的问题。

2 支持流式数据摄入

　　很多数据分析软件在吞吐量和流式能力上做了很多平衡，比如Hadoop 更加青睐批量处理，而Storm 则是一个流式计算平台，真正在分析平台层面上直接对接各种流式数据源的系统并不多。

3 查询灵活且快

　　数据分析师的想法经常是天马行空，希望从不同的角度去分析数据，为了解决这个问题，OLAP 的Star Schema 实际上就定义了一个很好的空间，让数据分析师自由探索数据。数据量小的时候，一切安好，但是数据量变大后，不能秒级返回结果的分析系统都是被诟病的对象。因此，Druid 支持在任何维度组合上进行查询，访问速度极快，成为分析平台最重要的两个杀手锏。

4 社区支持力度大

　　Druid 开源后，受到不少互联网公司的青睐，包括雅虎、eBay、阿里巴巴等，其中雅虎的Committer 有5 个，谷歌有1 个，阿里巴巴有1 个。最近，MetaMarkets 之前几个Druid 发明人也成立了一家叫作Imply.io 的新公司，推动Druid 生态的发展，致力于Druid 的繁荣和应用。

Druid 的应用场景

　　从技术定位上看，Druid 是一个分布式的数据分析平台，在功能上也非常像传统的OLAP系统，但是在实现方式上做了很多聚焦和取舍，为了支持更大的数据量、更灵活的分布式部署、更实时的数据摄入，Druid 舍去了OLAP 查询中比较复杂的操作，例如JOIN 等。相比传统数据库，Druid 是一种时序数据库，按照一定的时间粒度对数据进行聚合，以加快分析查询。

　　在应用场景上，Druid 从广告数据分析平台起家，已经广泛应用在各个行业和很多互联网公司中，最新列表可以访问http://druid.io/druidpowered.html。

　　Druid 的生态系统正在不断扩大和成熟，Druid 也正在解决越来越多的业务场景。希望《Druid实时大数据分析原理与实践》一书能帮助技术人员做出更好的技术选型，深度了解Druid 的功能和原理，更好地解决大数据分析问题。

各大电商网站火热预售中！

　　本文选自《Druid实时大数据分析原理与实践》，点此链接可在博文视点官网查看此书。

　　　　　　　　　　　　　　　　　　　　

　　想及时获得更多精彩文章，可在微信中搜索“博文视点”或者扫描下方二维码并关注。

　　　　　　　　　　　　　　　　　　　　　　　　　

快速了解Druid——实时大数据分析软件的更多相关文章

携程实时大数据平台演进：1/3 Storm应用已迁到JStorm
携程大数据平台负责人张翼分享携程的实时大数据平台的迭代,按照时间线介绍采用的技术以及踩过的坑.携程最初基于稳定和成熟度选择了Storm+Kafka,解决了数据共享.资源控制.监控告警.依赖管理等问题之 ...
Druid ：大数据实时处理的开源分布式系统（1）
引言 Druid 是一个快速,近实时的查询海量只读数据的系统.Druid 的目标是可用性要达到100%,即使在部署新代码,或者某些节点 down 机的情况下. Druid 目前支持的单表查询方式和 D ...
TOP100summit：【分享实录-Microsoft】基于Kafka与Spark的实时大数据质量监控平台
本篇文章内容来自2016年TOP100summit Microsoft资深产品经理邢国冬的案例分享.编辑:Cynthia 邢国冬(Tony Xing):Microsoft资深产品经理.负责微软应用与服 ...
Storm 实战：构建大数据实时计算
Storm 实战:构建大数据实时计算(阿里巴巴集团技术丛书,大数据丛书.大型互联网公司大数据实时处理干货分享!来自淘宝一线技术团队的丰富实践,快速掌握Storm技术精髓!) 阿里巴巴集团数据平台事业部 ...
大数据开发实战：Stream SQL实时开发三
4.聚合操作 4.1.group by 操作 group by操作是实际业务场景(如实时报表.实时大屏等)中使用最为频繁的操作.通常实时聚合的主要源头数据流不会包含丰富的上下文信息,而是经常需要实时关 ...
大数据开发实战：Stream SQL实时开发二
1.介绍本节主要利用Stream SQL进行实时开发实战,回顾Beam的API和Hadoop MapReduce的API,会发现Google将实际业务对数据的各种操作进行了抽象,多变的数据需求抽象为 ...
大数据开发实战：Stream SQL实时开发一
1.流计算SQL原理和架构流计算SQL通常是一个类SQL的声明式语言,主要用于对流式数据(Streams)的持续性查询,目的是在常见流计算平台和框架(如Storm.Spark Streaming.F ...
Hadoop！ | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户
你正在使用过时的浏览器,Amaze UI 暂不支持. 请升级浏览器以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:1 ...
Build2016上值得一看的大数据相关Session
(此文章同时发表在本人微信公众号"dotNET每日精华文章",欢迎右边二维码来关注.) 题记:Build2016开完很久了,现在才来回顾下,就说说那些和大数据相关的Session, ...

随机推荐

C# 取值函数
C# 中取绝对值的函数 System.Math.Abs(float value); System.Math.Abs(decimal value);System.Math.Abs(int value); ...
通过重写 class 的 ToString() 来简化获取 enum 的 DescriptionAttribute 值
通过重写 class 的 ToString() 来简化获取 enum 的 DescriptionAttribute 值目录一.常见的 enum 类型二.演变:class 版本的 enum 类型 ...
win7:你需要来自Administrators的权限才能对此文件进行修改的一个文件
win7:你需要来自Administrators的权限才能对此文件进行修改的一个文件 Posted on 2010-11-29 09:54 寒宵飞飞阅读(36117) 评论(1) 编辑收藏新建一 ...
高通ASOC中的machine驱动
ASoC被分为Machine.Platform和Codec三大部分,其中的Machine驱动负责Platform和Codec之间的耦合以及部分和设备或板子特定的代码,再次引用上一节的内容:Machin ...
[TFRecord文件格式]基本介绍
标准TensorFlow格式 TFRecords 觉得有用的话,欢迎一起讨论相互学习~Follow Me TFRecords可以允许你讲任意的数据转换为TensorFlow所支持的格式, 这种方法可以 ...
文字滚动效果，jquery和marquee标签
链接:https://pan.baidu.com/s/1pMwHYH1 密码:r9ys marquee标签是微软创建的,后来大部分浏览器都适用后,微软在IE8把这个标签去掉了.为符合W3C规范,还是使 ...
配置redis开机自启动和监听
redis安装好后,每次手动启动很不方便,配置开机自启动. 方法一:设置启动命令到/etc/rc.d/rc.local rc.local文件是系统全局脚本文件,会在其他开机进程脚本文件执行完毕后执行该 ...
hdu 5730 Shell Necklace [分治fft | 多项式求逆]
hdu 5730 Shell Necklace 题意:求递推式$f_n = \sum_{i=1}^n a_i f_{n-i}$,模313 多么优秀的模板题可以用分治fft,也可以多项式求逆分治 ...
BZOJ 1593: [Usaco2008 Feb]Hotel 旅馆 [线段树]
传送门题意: 操作1:找长为$len$的空区间并填满,没有输出$0$ 操作2:将$[l,r]$之间的区间置空我真是太弱了这种线段树还写了一个半小时,中间为了查错手动模拟了$30min$线段树操作, ...
selenium headlesschrome下设置最大窗口模式
做微博登录的时候,用selenium的chrome界面模式,可以用下面方式显示最大窗口: from selenium.webdriver.chrome.options import Options c ...

快速了解Druid——实时大数据分析软件