前言

适用于 即席查询 场景的开源查询引擎有很多,如:Elasticsearch、Druid、Presto、ClickHouse等;每种系统各有利弊,有的擅长检索,有的擅长统计;实践证明,All In One 是行不通的,最好的方式是选取若干个(考虑运维成本,建议 1 ~ 3 个),每个都对应着自身最具优势的场景。

大多数的技术分享会从系统架构、功能扩展或性能优化角度进行讨论,本文不涉及这些内容。本文以 指标多维统计查询 为例,讨论多个查询引擎混合应用场景下的问题思考及相应的解决方案。

指标多维统计查询

定义

什么是 指标多维统计查询 ?按指定的条件查询指标值(一个或多个),条件包括:

  • 时间范围(必选)
  • 时间粒度(必选)
  • 维度过滤条件(可选,类似SQL中的 Where
  • 维度分组条件(可选,类似SQL中的 GroupBy
  • 维度或指标排序条件(可选,类似SQL中的 OrderBy

注意,指标多维统计查询 涉及4个关键元素:时间范围时间粒度维度指标(详情见后)。

示例

  • 查询微博视频最近7天范围内,每天的PSR1(秒开率)是多少?
  • 查询微博视频最近1个月内,每天的移动4G场景下各个运营商的卡顿率是多少?

查询引擎混合应用

多个查询引擎混合应用的场景下,会遇到哪些问题呢?我们主要从 工程角度业务角度 来看下。

工程角度

每个查询引擎都有自己特有的API(也包含 SQL,虽然开源社区大多致力于提供标准的SQL支持,但实际落地情况并不尽如人意),指标查询需要 直接连接 查询引擎并使用相应的API进行指标值计算,开发人员和分析人员需要在多个不同的API之间来回切换,学习及维护成本较高;查询引擎版本升级或引入新的引擎会增加这些成本,系统整体的灵活性及可扩展性较差。

业务角度

多个查询引擎混合使用的场景下,业务指标会分散至不同的引擎中,会遇到以下问题(复杂度依次增加):

  • 某个业务指标的查询需要使用相应的查询引擎;
  • 某个业务指标的查询需要使用相应的查询引擎,且计算规则较为复杂;
  • 某个业务指标需要依赖多个查询引擎的联合查询;
  • 某个业务指标需要依赖多个查询引擎的联合查询,且计算规则较为复杂;

可以看出,我们需要维护指标与查询引擎的 对应关系,以及指标的 计算规则,实际中很大程度上依赖于 文档 (Wiki)。数据应用服务中常见的数据可视化、报表、数据接口,这些服务的实现模块均需要直接耦合这些对应关系及计算规则,而且需要重复多次。如果某个指标的对应关系或计算规则发生变化,相应的文档及相关的服务 必须 全部更新,才能保证数据一致性。

指标众多的场景下,上述提及的成本及复杂度会大幅增加,有过类似服务经验的同学应该深有体会。

补充

对应关系 与 计算规则 可能比较抽象,举一个具体的例子。假设 MySQL 数据库某数据表 DEFAULT.TEST_TABLE 的中有 2 列:A 和 B,指标 M 的值可以通过SQL语句查询得出,如:

SELECT
A / B AS M
FROM
DEFAULT.TEST_TABLE

数据应用服务(数据可视化、报表或数据接口)查询这个指标数据时,需要知道去什么地方查询,以及具体如何查询;上述示例需要通过远程方式连接MySQL,连接时使用到的协议类型(MySQL)、IP地址、端口号等信息就是 对应关系;查询时需要使用的SQL语句就是 计算规则

指标库

针对指标众多,指标计算规则及相关信息不易维护的问题,我们提出 指标库 用于规范化指标管理。什么是 指标库

对于某一个指标而言,可以从不同的时间范围、时间粒度及维度视角进行统计查询。换句话说,对于某一个指标而言,我们需要知道可以从哪些时间范围、哪些时间粒度、哪些维度视角进行统计查询,以及指标的计算规则是什么。一般情况下,同属于一个 业务 的指标会共享相同的时间范围、时间粒度及维度项,我们将类似这样的业务统称为 主题。每一个主题对应着一个业务或业务中的某个细分场景,如:

  • 移动端视频上传性能
  • PC端视频上传性能
  • 移动端视频劫持性能
  • CDN服务质量分析

 

每一个 主题 需要包含以下信息:

  • 主题名称

    顾名思义,业务名称或业务中的某个细分场景名称。

     

  • 时间范围

    可支持的数据查询时间范围([起始时间,结束时间]);相当于数据的存储周期,过期数据会被清除。

     

  • 时间粒度

    可支持的数据查询最小时间粒度,相当于数据的聚合程度,如:1 秒,5 分钟,1 小时 或 1 天 之类的。

    假设时间粒度是 5 分钟,表示最小可以支持 每5分钟 一个数据点的查询请求,同时也可以支持 每1小时 或 每1天 之类的查询请求,但不可以支持 每1秒 或 每1分钟 之类的查询请求。

     

  • 维度

    可以支持的数据查询视角,通常会有多个,如:省份、运营商、设备 之类的。以 运营商 为例,表示可以查看指定运营商或各个运营商的数据。

     

  • 维度值

    维度可以支持的查询值,通常会有多个。以维度 运营商 为例,维度值会有移动、联通、电信之类的。

     

  • 指标

    可以支持查询的指标,通常会有多个,如:秒开率、卡顿率 之类的。

     

  • 指标计算规则

    某个指标的计算公式。以指标 卡顿率 为例,计算公式:卡顿次数 / 总次数。

 

若干个 主题集合,我们称之为 指标库指标库 的内容可以按照上述描述的格式记录到专用的文档中,统一更新发版,用于公司内部数据共享。

查询语言

数据应用服务(数据可视化、报表、数据接口)的核心逻辑是查询指标数据,并不是使用 对应关系 和 计算规则 完成指标计算,且存在重复直接耦合的问题。为此,我们在 指标库 的基础之上,针对 指标多维统计查询 场景设计了一种领域特定语言(DSL)。也就是说,数据应用服务查询指标数据时直接使用统一的查询语言,不再存在直接耦合 对应关系 和 计算规则 的情况,后续 对应关系(查询引擎升级或迁移)或 计算规则 的 变更 对于数据应用服务也是 透明 的。

查询语言是基于 JSON 实现的。

getTopics

查询指标库中有哪些主题(多个)。

 {
"type": "getTopics"
}

getDimentions

查询指定主题中有哪些维度项(多个)。

 {
"type": "getDimentions",
"topic": "..."
}

其中,topic 为主题名称。

getDimentionValues

查询指定主题、指定维度中有哪些维度值(多个)。

 {
"type": "getDimentionValues",
"topic": "...",
"dimension": "..."
}

其中,topic 用于指定主题名称, dimension 用于指定维度名称。

getMetrics

查询指定主题中有哪些指标项(多个)。

 {
"type": "getMetrics",
"topic": "..."
}

其中,topic 用于指定主题名称。

query

查询(指标数据),是查询语言中最为复杂的类型。

 {
"type": "query",
"topic": "...",
"interval": {...},
"granularity": {...},
"metric": "...",
"where": {...},
"groups": [...],
"having": {...},
"orders": [...],
"limit": ...
}

topic

主题名称(必填项)。

interval

时间范围(必填项)。

 {
"start": "...",
"end": "..."
}

其中,start/end 均为闭区间,格式:yyyy-MM-dd HH:mm:ss。

granularity

时间粒度,默认为无穷大。

 {
"data": ...,
"unit": "..."
}

其中,data 为数值(整型),unit 为单位,如:s(秒)、m(分钟)、h(小时)、d(天)、w(周)、M(月)、y(年)。

metric

指标名称(必填项)。

where

维度过滤,对应于SQL语句中的 Where,默认为空,支持比较表达式与逻辑表达式。

比较表达式

比较表达式用于表示数值比较、包含或不包含,以及正则匹配。

eq/ne/gt/lt/ge/le
 {
"operator": "...",
"name": "...",
"value": "..."
}

其中,operator 为 eq(等于)、ne(不等于)、gt(大于)、lt(小于)、ge(大于或等于)或 le(小于或等于),name 为维度名称,value 为维度值。

in
 {
"operator": "in",
"name": "...",
"values": [...]
}

其中,operator 为 in(包含),name 为维度名称,values 为维度值列表(JSON数组)。

regex
  {
"operator": "regex",
"name": "...",
"pattern": "..."
}

其中,operator 为 regex(正则匹配),name 为维度名称,pattern 为正则表达式。

逻辑表达式

逻辑表达式用于表示一个或多个表达式之间的 与(And)、或(Or)、非(Not)关系。

and
 {
"operator": "and",
"filters": [...]
}

其中,operator 为 and(与),filters 为两个或两个以上的比较表达式或逻辑表达式。

or
 {
"operator": "or",
"filters": [...]
}

其中,operator 为 or(或),filters 为两个或两个以上的比较表达式或逻辑表达式。

not
 {
"operator": "not",
"filter": {...}
}

其中,operator 为 not(非),filter 为一个比较表达式或逻辑表达式。

groups

维度分组,类似于SQL语句中的 GroupBy,默认为空,可以指定多个维度项(JSON数组)。

 [
"...",
...
]

having

分组过滤,类似于SQL语句中的 Having,默认为空,语法同 where。分组过滤表达式中的 name 可以是维度名称,也可以是指标名称。

orders

排序,类似于SQL语句中的 OrderBy,默认为空,可以指定多个排序项。

 [
{
"name": "...",
"sort": "..."
},
...
]

其中,name 为维度名称或指标名称,sort 为 asc(升序)或 desc(降序)。

limit

限制结果集行数,类似于SQL语句中的 Limit,默认为空。

示例参考

查询指标

主题:CDN服务质量分析;

时间范围:["2020-03-16 00:00:00", "2020-03-16 23:59:59"];

时间粒度:1小时;

指标:下载速度(download_speed_avg);

维度过滤:域名(domain)包含有字符串“weibo”;

维度分组:运营商(isp);

分组过滤:下载速度(download_speed_avg)大于2000 Kb/s;

排序:下载速度降序(download_speed_avg);

结果集:最多100行;

 

查询语言

 {
"type": "query",
"topic": "CDN服务质量分析",
"interval": {
"start": "2020-03-16 00:00:00",
"end": "2020-03-16 23:59:59"
},
"granularity": {
"data": 1,
"unit": "h"
},
"metric": "download_speed_avg",
"where": {
"operator": "regex",
"name": "domain",
"pattern": "^.*weibo.*$"
},
"groups": [
"isp"
],
"having": {
"operator": "gt",
"name": "download_speed_avg",
"value": 2000
},
"orders": [
{
"name": "download_speed_avg",
"sort": "desc"
}
],
"limit": 100
}

查询代理

查询语言只是一种描述性的协议规范,并不能完成实际的查询过程。我们需要一种 服务,可以接收并执行这种查询语言,过程如下:

  1. 解析查询语言,获取需要查询的指标;
  2. 查找指标对应的查询引擎及计算规则;
  3. 使用查询语言设定的查询条件,连接查询引擎,根据计算规则调用API,执行指标的实际计算过程;
  4. 返回结果。

这就是我们即将要重点介绍的 查询代理

客户端

AnalysisQl 本质是一套Java API,需要嵌入到Web或RPC容器中使用。

DefaultConnector connector = new DefaultConnector();

...

AnalysisQl analysisQl = new AnalysisQl(connector);

AnalysisQl 的实现是线程安全的,一个Web或RPC容器进程中创建一个 AnalysisQl 实例即可,实例创建完成即表示查询代理服务启动完成。

查询语言的执行都需要通过 AnalysisQl.request 来完成,如下:

Response response = analysisQl.request(dsl);

相当于,AnalysisQl 是查询代理的客户端。

 

代码参考

https://github.com/weibodip/analysisql/blob/master/core/src/main/java/com/weibo/dip/analysisql/AnalysisQl.java

解析器

查询语言是基于 JSON 实现的,不方便直接在Java语言中使用,需要将其 解析 成相应的 JavaBean,如下:

    Parser parser = new Parser(connector);

    Request request = parser.parse(dsl);

Parser 是解析器,Request 是查询类型的顶层抽象类,查询语言中的每一种查询类型都有其对应的实现类:

  • GetTopicsRequest(getTopics)
  • GetDimensionsRequest(getDimentions)
  • GetDimensionValuesRequest(getDimentionValues)
  • GetMetricsRequest(getMetrics)
  • QueryRequest(query)

 

代码参考

https://github.com/weibodip/analysisql/blob/master/core/src/main/java/com/weibo/dip/analysisql/dsl/request/GetTopicsRequest.java

https://github.com/weibodip/analysisql/blob/master/core/src/main/java/com/weibo/dip/analysisql/dsl/request/GetDimensionsRequest.java

https://github.com/weibodip/analysisql/blob/master/core/src/main/java/com/weibo/dip/analysisql/dsl/request/GetDimensionValuesRequest.java

https://github.com/weibodip/analysisql/blob/master/core/src/main/java/com/weibo/dip/analysisql/dsl/request/GetMetricsRequest.java

https://github.com/weibodip/analysisql/blob/master/core/src/main/java/com/weibo/dip/analysisql/dsl/request/QueryRequest.java

其中,QueryRequest 关于 Filter(过滤)的实现较为有意思,有兴趣的同学可以参考 https://github.com/weibodip/analysisql/tree/master/core/src/main/java/com/weibo/dip/analysisql/dsl/filter。

连接器

连接器用于定义查询代理支持的接口协议,对应着查询语言的查询类型:

public interface Connector {
Response getTopics(GetTopicsRequest request); Response getDimensions(GetDimensionsRequest request); Response getDimensionValues(GetDimensionValuesRequest request); Response getMetrics(GetMetricsRequest request); Response query(QueryRequest request);
}

 

为什么需要设计连接器?

理论上,查询语言是标准的,但查询代理的实现可以是多种多样的。类似于 Java JDBC,统一抽象数据库的操作接口,连接数据库时需要使用相应类型的驱动。我们使用连接器,用于桥接查询客户端与查询代理的具体实现,保证系统的可扩展性;同时提供系统默认的连接器 DefaultConnector,满足大部分场景的使用需求。

每一种查询类型应调用连接器的哪一个接口,是通过 Request.type 判断的,如下:

   switch (request.getType()) {
case Request.GET_TOPICS:
return connector.getTopics((GetTopicsRequest) request); case Request.GET_DIMENSIONS:
return connector.getDimensions((GetDimensionsRequest) request); case Request.GET_DIMENSION_VALUES:
return connector.getDimensionValues((GetDimensionValuesRequest) request); case Request.GET_METRICS:
return connector.getMetrics((GetMetricsRequest) request); case Request.QUERY:
return connector.query((QueryRequest) request);
default:
throw new UnsupportedOperationException();
}

 

代码参考

https://github.com/weibodip/analysisql/blob/master/core/src/main/java/com/weibo/dip/analysisql/connector/Connector.java

https://github.com/weibodip/analysisql/blob/master/view/src/main/java/com/weibo/dip/analysis/view/DefaultConnector.java

数据视图

数据视图 View 是一个抽象类,对应于指标库中的主题,每一个主题均需要提供相应的数据视图实现类,并于查询代理初始化之前注册到连接器中。实现时需要设置以下信息:

protected String topic;

protected List<Dimension> dimensions;

protected List<Metric> metrics;

protected List<Table> tables;

protected PolicyRouter router;

 

topic:主题名称;

dimensions:维度项,每一个 Dimension 表示一个维度;

metrics:指标项,每一个 Metric 表示一个维度;

tables:数据表,每一个 Table 表示一张数据表,详细见后;

router:策略路由,详情见后;

 

CDN服务质量分析 为例,数据视图实现类如下:

public class CdnServiceQualityView extends DefaultView {

  /** Initialize a instance. */
public CdnServiceQualityView() {
super(
"CDN服务质量分析", // 主题名称
...); addDimension("country", "国家"); // 添加维度项
addDimension("business", "业务");
addDimension("city", "城市"); addMetric("error_num", "错误量(万)"); // 添加指标项
addMetric("request_num", "访问量(亿)");
addMetric("download_time_avg", "下载时间(s)"); addTable(new CdnServiceQualityTable(this)); // 添加数据表
addTable(new CdnNetflowBillingTable(this));
}
}

:DefaultView 是 View 的默认实现类。

CdnServiceQualityView 构建函数中直接完成主题、维度项、指标项及数据表的设置,也可以在 CdnServiceQualityView 实例创建完成之后,通过相应的实例方法(addDimension/addMetric/addTable)设置。

然后,注册到连接器:

connector.register(new CdnServiceQualityView());

连接器中保存着所有已注册的数据主题:

  protected Map<String, Metadata> metadatas = new HashMap<>();

  public void register(Metadata metadata) {
metadatas.put(metadata.getTopic(), metadata);
}

:Metadata 是 View 的抽象父类。

连接器中多数协议方法的实现本质就是根据主题名称(topic)查找到相应的数据主题实例,调用其实例方法完成查询请求。

 

为什么需要设计数据视图?

 

假设数据表 A 以 5分钟 的时间粒度,存储着 m 个维度、n 个指标的数据,每5分钟的数据量(即:数据行数)的最大值理论上取决于各个维度的维度值数目;如果 m 个维度的维度值数目依次为 N1、N2、...、Nm,那么每5分钟数据量为 N1 * N2 * ... * Nm(即多个维度的维度值数目的笛卡尔乘积);每日的数据最为 288 * N1 * N2 * ... * Nm。

我们列举几个常用的查询:

  1. 查询最近 1小时内,以 5分钟 为时间粒度,某个维度或某几个维度组合的指标数据;
  2. 查询最近 7天内,以 1小时 为时间粒度,某个维度或某几个维度组合的指标数据;
  3. 查询最近 1月内,以 1天 为时间粒度,某个维度或某几个维度组合的指标数据;

可以看出,数据表 A 是可以完全支撑上述查询需求的。那么,问题在于哪里?问题在于查询的 响应时间,响应时间很大程度上取决于查询时需要扫描的 数据量。在我们的场景中,很多业务按数据表 A 的方式存储数据,每天的数据量会达到数百亿级别,较长时间范围内(跨天/跨周/跨月)的指标数据查询,响应是比较缓慢的。

我们经常使用的优化方案:

  • 创建数据表 B,以 5分钟 为时间粒度,存储数据表 A 中部分维度的指标数据;

    维度数目的减少,表示着数据表 B 相对于 数据表 A 的数据是减少的。以上述 查询1 为例,如果需要查询的维度正好存在于数据表 B,那么使用数据表 B 相比于 数据表 A,需要扫描的数据量更少,响应时间更快。

     

  • 创建数据表 C,以 1天 为时间粒度,存储数据表 A 聚合之合的指标数据;

    时间粒度的增大,表示着数据表 C 相对于 数据表 A 的数据量是减少的。以上述 查询3 为例,使用数据表 C 相比于 数据表 A,需要扫描的数据量更少,响应时间更快。

 

扩展一下思路:可以根据实际的业务场景,在基础数据表(如:数据表A)之上,有效组合不同的时间粒度、不同的维度组合额外创建出若干张数据表,用于优化查询的响应时间。

也就是说,指标库中的某一个主题可以对应着多张数据表,这些数据表可以有不同的时间粒度、不同的维度组合,甚至不同的指标项,存储于不同的查询引擎,或者被多个主题所共享。这样的 自由组合 从工程角度看是非常灵活的;但从数据服务角度看,会带来2个问题:

  • 多张数据表之间的信息是 混乱 的,缺乏一致的数据口径;
  • 查询指标数据时应该使用哪张数据表?

因此,我们设计 数据视图,显示声明包含的维度、指标信息,以及相关的数据表(参考数据视图定义)。数据视图 如何解决查询指标时使用的数据表问题,参见后文。

代码参考

https://github.com/weibodip/analysisql/blob/master/view/src/main/java/com/weibo/dip/analysis/view/View.java

数据表

如前文所述,同一个主题(数据视图)中可以包含多张数据表,且这些数据表之间可能会有不同的时间粒度、维度项、指标项等,数据表(Table)的设计需要能够明确显示声明这些信息。

protected String topic;

protected List<Dimension> dimensions;

protected List<Metric> metrics;

protected Map<String, MetricCalculator> calculators;

private Granularity granularity;
private int period;
private int delay;

 

topic:数据表属于的主题名称;

dimensions:数据表支持的维度项;

metrics:数据表支持的指标项;

calculators:数据表支持的指标项对应的 指标计算器 (参见后文);

granularity:数据表存储数据的时间粒度;

period:数据表存储数据的周期,也就是数据表可以查询的时间范围;

delay:数据表数据的延迟时间,也就是说相对于当前时间,这个延迟范围内的数据是查询不到的;

CDN服务质量分析 的数据表为例,数据表实现类如下:

public class CdnServiceQualityTable extends Table {

  public CdnServiceQualityTable(View view) {
super(view, "clickhouse-cdn-all_cdn_staging", new Granularity(5, Unit.m), 103680, 36); // 设置时间粒度、存储周期及延迟时间 addDimension("country"); // 声明支持的维度项
addDimension("business");
addDimension("city"); addCalculator("error_num", new HubbleClickHouseCalculator("analysisql/cdn/cdn-error_num.sql")); // 声明支持的指标项的同时,提供指标相应的指标计算器
addCalculator(
"request_num", new HubbleClickHouseCalculator("analysisql/cdn/cdn-request_num.sql"));
addCalculator(
"download_time_avg",
new HubbleClickHouseCalculator("analysisql/cdn/cdn-download_time_avg.sql"));
}
}

 

代码参考

https://github.com/weibodip/analysisql/blob/master/view/src/main/java/com/weibo/dip/analysis/view/Table.java

策略路由

数据视图(View)中包含多张数据表(Table),查询指标数据时,我们需要根据一定的 规则 从这些数据表中选取出 查询代价最小(响应时间最快) 的数据表用于指标计算,规则 的具体实现就是 策略路由

过滤

过滤就是 排除 不能支持查询的数据表,考虑以下4个因素:

  1. 指标

    数据表必须包含查询的指标项;

  2. 维度

    数据表必须包含查询涉及的维度项(多个);

  3. 时间粒度

    数据表数据存储的时间粒度必须小于或等于查询指定的时间粒度,否则无法聚合数据;

  4. 时间范围

    数据表在查询指定的时间范围内存在数据(根据数据表存储周期及延迟时间计算);

满足上述4个条件的数据表即可以进入下一阶段。

排序

排序规则:

  • 数据表的时间粒度越大,查询代价越小;
  • 数据表的维度数目越少,查询代价越小;

经过过滤、排序之后,位于第1个位置的数据表即是 最优 的数据表。目前,策略路由(PolicyRouter)的实现是直接内置于数据视图,尚不支持自定义扩展。

 

代码参考

https://github.com/weibodip/analysisql/blob/master/view/src/main/java/com/weibo/dip/analysis/view/PolicyRouter.java

指标计算器

指标计算器(MetricCalculator)用于根据查询请求完成指标的计算。也就是说,前文中提及的 对应关系 和 计算规则 均包含在指标计算器中,指标计算器需要连接查询引擎,使用相应的API或SQL,根据计算规则完成指标的计算过程,并返回结果。数据表的各个指标均需要提供相应的指标计算器实现器,并注册到数据表中。

public interface MetricCalculator {
List<Row> calculate(QueryRequest request) throws Exception;
}

考虑到常用的查询引擎(如:MySQL、Presto、ClickHouse)大多支持以 SQL 的方式查询数据,为加速指标计算器的实现效率,系统支持以 SQL模板 的方式定义指标的计算规则,并提供多种 模板引擎, 可将 查询条件 与 SQL模板 整合转换特定查询引擎的SQL语句(不同查询引擎的SQL实现存在一定差异)。

以 ClickHouse 为例,某指标计算规则可以这样定义:

SELECT
$COLUMNS, SUM(netflow) * 8 / 1000 / 1000 / 1000 AS $METRIC
FROM
cdn.edge_scheduler_bandwith
WHERE
$WHERE
GROUP BY
$GROUPS
HAVING
$HAVING
AND isNaN($METRIC) == 0
AND isInfinite($METRIC) == 0
AND $METRIC >= 0.0
ORDER BY
$ORDERS
LIMIT
$LIMIT

 

$COLUMNS$WHERE$GROUPBY$HAVING$ORDERBY$LIMIT 均是 模板引擎 支持的自定义变量(不同的模板引擎支持的变量种类存在一定差异)。模板引擎 会将查询语言中的过滤表达式、维度分组、分组过滤、排序及结果集行数转换为这些自定义变更对应的值,并输出完整的SQL语句。

指标计算器直接使用转换之后的SQL语句,连接查询引擎查询数据即可。

综上所述,查询代理核心工作流程如下:

  1. 解析查询语言;
  2. 使用主题名称查找数据视图;
  3. 使用策略路由选取最优数据表;
  4. 使用指标名称查找最优数据表的指标计算器;
  5. 计算指标并返回结果;

数据应用服务仅需要知道查询代理服务地址(域名)、端口号,使用查询语言查询需要的指标数据即可。

结语

本文介绍的指标库、查询语言(DSL)、查询代理是我们团队自主研发的OLAP服务,在微博视频性能数据分析中取得很好地应用效果。通过技术优化的方式,在有限的计算资源范围内得到不错的性能表现,大幅降低数据接口、可视化及监控服务的开发成本。 同时,我们团队也在准备项目开源(https://github.com/weibodip/analysisql )的准备工作,有兴趣的同学可关注交流。

 

 

 

微博大数据即席查询(OLAP)引擎实践的更多相关文章

  1. 《深度访谈:华为开源数据格式 CarbonData 项目,实现大数据即席查询秒级响应》

    深度访谈:华为开源数据格式 CarbonData 项目,实现大数据即席查询秒级响应   Tina 阅读数:146012016 年 7 月 13 日 19:00   华为宣布开源了 CarbonData ...

  2. Impala简介PB级大数据实时查询分析引擎

    1.Impala简介 • Cloudera公司推出,提供对HDFS.Hbase数据的高性能.低延迟的交互式SQL查询功能. • 基于Hive使用内存计算,兼顾数据仓库.具有实时.批处理.多并发等优点 ...

  3. 分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例【转】

    Kylin 麒麟官网:http://kylin.apache.org/cn/download/ 关键字:olap.Kylin Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的 ...

  4. 给Clouderamanager集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)

    这个很简单,在集群机器里,选择就是了,本来自带就有Impala的. 扩展博客 给Ambari集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)

  5. 给Ambari集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)

    不多说,直接上干货! Impala和Hive的关系(详解) 扩展博客 给Clouderamanager集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解) 参考 horton ...

  6. 网易大数据平台的Spark技术实践

    网易大数据平台的Spark技术实践 作者 王健宗 网易的实时计算需求 对于大多数的大数据而言,实时性是其所应具备的重要属性,信息的到达和获取应满足实时性的要求,而信息的价值需在其到达那刻展现才能利益最 ...

  7. 大数据系列之并行计算引擎Spark介绍

    相关博文:大数据系列之并行计算引擎Spark部署及应用 Spark: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎. Spark是UC Berkeley AMP lab ( ...

  8. WOT干货大放送:大数据架构发展趋势及探索实践分享

      WOT大数据处理技术分会场,PingCAP CTO黄东旭.易观智库CTO郭炜.Mob开发者服务平台技术副总监林荣波.宜信技术研发中心高级架构师王东及商助科技(99Click)顾问总监郑泉五位讲师, ...

  9. Druid:一个用于大数据实时处理的开源分布式系统——大数据实时查询和分析的高容错、高性能开源分布式系统

    转自:http://www.36dsj.com/archives/28590 Druid 是一个用于大数据实时查询和分析的高容错.高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分 ...

随机推荐

  1. Linux下常用命令(持续更新)

    l: 列举目录下的所有文件 ll: 显示详细属性 pwd: 查看当前所在完整路径 cd: 变更文件夹(变更到根目录:cd + /:变更到上级目录:cd + ..) sudo: 允许利用超级用户权限执行 ...

  2. 【JMeter_20】JMeter逻辑控制器__事务控制器<Transaction Controller>

    事务控制器<Transaction Controller> 业务逻辑: 这个控制器在在业务控制上并没有什么特殊逻辑,可以理解为在简单控制器的基础上添加了统计的功能,当所有子节点全部成功则成 ...

  3. 《MySQL技术内幕:InnoDB存储引擎》读书笔记

    一.Mysql体系结构和存储引擎 1. 概念:              数据库:物理操作系统文件或其他形式文件类型的集合.(是文件的集合,是依照某种数据模型组织起来并存放于二级存储器中的数据集合.) ...

  4. 2020年最新78道JVM面试题总结(含答案解析和思维导图)

    前言 关于JVM系列面试知识点总结了一个思维导图,分享给大家 1.java中会存在内存泄漏吗,请简单描述. 会.自己实现堆载的数据结构时有可能会出现内存泄露. 2.64 位 JVM 中,int 的长度 ...

  5. git常用代码合集

    git常用代码合集 1. Git init:初始化一个仓库 2. Git add 文件名称:添加文件到Git暂存区 3. Git commit -m “message”:将Git暂存区的代码提交到Gi ...

  6. trollcave解题

    这是第一次完整地进行模拟渗透,前前后后一共花了一天时间,花了点时间写了个writeup. 博主是个菜鸡,如果有大神看到,请轻喷...... writeup下载:https://hrbeueducn-m ...

  7. Ubuntu k80深度学习环境搭建

    英伟达驱动安装 英伟达驱动下载:https://www.nvidia.cn/Download/driverResults.aspx/135493/cn/ 由于是驱动的冲突,那么自然是要杀掉和显卡结合不 ...

  8. Spring IoC bean 的创建(上)

    前言 本系列全部基于 Spring 5.2.2.BUILD-SNAPSHOT 版本.因为 Spring 整个体系太过于庞大,所以只会进行关键部分的源码解析. 本篇文章主要介绍 Spring IoC 容 ...

  9. GitLab Runner部署(kubernetes环境)

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  10. AnalyticDB实现和特点浅析

    目录 AnalyticDB介绍与背景 AnalyticDB详细解析 架构设计 数据分区 读写分离和读写流程 其他特性介绍 混合(列-行)存储引擎 索引 小结 本篇主要是根据AnalyticDB的论文, ...