Flink+Druid构建实时OLAP的探索

场景

k12在线教育公司的业务场景中，有一些业务场景需要实时统计和分析，如分析在线上课老师数量、学生数量，实时销售额，课堂崩溃率等，需要实时反应上课的质量问题，以便于对整个公司的业务情况有大致的了解。

方案对比

对比了很多解决方案，如下几种，列出来供参考。

方案	实时入库	SQL支持度
Spark+CarbonData	支持	Spark SQL语法丰富
Kylin	不支持	支持join
Flink+Druid	支持	0.15以前不支持SQL，不支持join

上一篇文章所示，使用Spark+CarbonData也是一种解决方案，但是他的缺点也是比较明显，如不能和Flink进行结合，因为我们整个的大数据规划的大致方向是，Spark用来作为离线计算，Flink作为实时计算，并且这两个大方向短时间内不会改变；
Kylin一直是老牌OLAP引擎，但是有个缺点无法满足我们的需求，就是在技术选型的那个时间点kylin还不支持实时入库（后续2.0版本支持实时入库），所以就选择了放弃；
使用Flink+Druid方式实现，这个时间选择这个方案，简直是顺应潮流呀，Flink现在如日中天，各大厂都在使用，Druid是OLAP的新贵，关于它的文章也有很多，我也不赘述太多。有兴趣的可以看下这篇文章，我的博客其它文章也有最新版本的安装教程，实操方案哦。

设计方案

实时处理采用Flink SQL，实时入库Druid方式采用 druid-kafka-indexing-service，另一种方式入库方式，Tranquility，这种方式测试下来问题多多，放弃了。数据流向如下图。

场景举例

实时计算课堂连接掉线率。此事件包含两个埋点上报，进入教室和掉线分别上报数据。druid设计的字段

flink的处理

将上报的数据进行解析，上报使用的是json格式，需要解析出所需要的字段然后发送到kafka。字段包含如下

sysTime，DateTime格式

pt,格式yyyy-MM-dd

eventId,事件类型(enterRoom|disconnect)

lessonId,课程ID

Druid处理

启动Druid Supervisor，消费Kafka里的数据，使用预聚合，配置如下

{

  "type": "kafka",

  "dataSchema": {

    "dataSource": "sac_core_analyze_v1",

    "parser": {

      "parseSpec": {

        "dimensionsSpec": {

          "spatialDimensions": [],

          "dimensions": [

            "eventId",

            "pt"

          ]

        },

        "format": "json",

        "timestampSpec": {

          "column": "sysTime",

          "format": "auto"

        }

      },

      "type": "string"

    },

    "metricsSpec": [

      {

            "filter": {

                "type": "selector",

                "dimension": "msg_type",

                "value": "disconnect"

            },

            "aggregator": {

                "name": "lesson_offline_molecule_id",

                "type": "cardinality",

                "fields": ["lesson_id"]

            },

            "type": "filtered"

        }, {

            "filter": {

                "type": "selector",

                "dimension": "msg_type",

                "value": "enterRoom"

            },

            "aggregator": {

                "name": "lesson_offline_denominator_id",

                "type": "cardinality",

                "fields": ["lesson_id"]

            },

            "type": "filtered"

        }

    ],

    "granularitySpec": {

      "type": "uniform",

      "segmentGranularity": "DAY",

      "queryGranularity": {

        "type": "none"

      },

      "rollup": true,

      "intervals": null

    },

    "transformSpec": {

      "filter": null,

      "transforms": []

    }

  },

  "tuningConfig": {

    "type": "kafka",

    "maxRowsInMemory": 1000000,

    "maxBytesInMemory": 0,

    "maxRowsPerSegment": 5000000,

    "maxTotalRows": null,

    "intermediatePersistPeriod": "PT10M",

    "basePersistDirectory": "/tmp/1564535441619-2",

    "maxPendingPersists": 0,

    "indexSpec": {

      "bitmap": {

        "type": "concise"

      },

      "dimensionCompression": "lz4",

      "metricCompression": "lz4",

      "longEncoding": "longs"

    },

    "buildV9Directly": true,

    "reportParseExceptions": false,

    "handoffConditionTimeout": 0,

    "resetOffsetAutomatically": false,

    "segmentWriteOutMediumFactory": null,

    "workerThreads": null,

    "chatThreads": null,

    "chatRetries": 8,

    "httpTimeout": "PT10S",

    "shutdownTimeout": "PT80S",

    "offsetFetchPeriod": "PT30S",

    "intermediateHandoffPeriod": "P2147483647D",

    "logParseExceptions": false,

    "maxParseExceptions": 2147483647,

    "maxSavedParseExceptions": 0,

    "skipSequenceNumberAvailabilityCheck": false

  },

  "ioConfig": {

    "topic": "sac_druid_analyze_v2",

    "replicas": 2,

    "taskCount": 1,

    "taskDuration": "PT600S",

    "consumerProperties": {

      "bootstrap.servers": "bd-prod-kafka01:9092,bd-prod-kafka02:9092,bd-prod-kafka03:9092"

    },

    "pollTimeout": 100,

    "startDelay": "PT5S",

    "period": "PT30S",

    "useEarliestOffset": false,

    "completionTimeout": "PT1200S",

    "lateMessageRejectionPeriod": null,

    "earlyMessageRejectionPeriod": null,

    "stream": "sac_druid_analyze_v2",

    "useEarliestSequenceNumber": false

  },

  "context": null,

  "suspended": false

}

最重要的配置是metricsSpec，他主要定义了预聚合的字段和条件。

数据查询

数据格式如下

pt	eventId	lesson_offline_molecule_id	lesson_offline_denominator_id
2019-08-09	enterRoom	"AQAAAAAAAA=="	"AQAAAAAAAA=="
2019-08-09	disconnect	"AQAAAAAAAA=="	"AQAAAAAAAA=="

结果可以按照这样的SQL出

SELECT pt,CAST(APPROX_COUNT_DISTINCT(lesson_offline_molecule_id) AS DOUBLE)/CAST(APPROX_COUNT_DISTINCT(lesson_offline_denominator_id) AS DOUBLE) from sac_core_analyze_v1 group by pt

可以使用Druid的接口查询结果，肥肠的方便~

Flink+Druid构建实时OLAP的探索的更多相关文章

druid.io 海量实时OLAP数据仓库 (翻译+总结) (1)
介绍我是NDPmedia公司的大数据OLAP的资深高级工程师, 专注于OLAP领域, 现将一个成熟的可靠的高性能的海量实时OLAP数据仓库介绍给大家: druid.io NDPmedia在2014年 ...
druid.io 海量实时OLAP数据仓库 (翻译+总结) (1)——分析框架如hive或者redshift（MPPDB）、ES等
介绍我是NDPmedia公司的大数据OLAP的资深高级工程师, 专注于OLAP领域, 现将一个成熟的可靠的高性能的海量实时OLAP数据仓库介绍给大家: druid.io NDPmedia在2014年 ...
DataPipeline丨构建实时数据集成平台时，在技术选型上的考量点
文 | 陈肃 DataPipeline CTO 随着企业应用复杂性的上升和微服务架构的流行,数据正变得越来越以应用为中心. 服务之间仅在必要时以接口或者消息队列方式进行数据交互,从而避免了构建单一数 ...
OPPO数据中台之基石：基于Flink SQL构建实数据仓库
小结: 1. OPPO数据中台之基石:基于Flink SQL构建实数据仓库 https://mp.weixin.qq.com/s/JsoMgIW6bKEFDGvq_KI6hg 作者 | 张俊编辑 | ...
唯品会海量实时OLAP分析技术升级之路
本文转载自公众号 DBAplus社群 , 作者:谢麟炯谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责 ...
Demo：基于 Flink SQL 构建流式应用
Flink 1.10.0 于近期刚发布,释放了许多令人激动的新特性.尤其是 Flink SQL 模块,发展速度非常快,因此本文特意从实践的角度出发,带领大家一起探索使用 Flink SQL 如何快速构 ...
腾讯云EMR大数据实时OLAP分析案例解析
OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值.本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾 ...
ElasticSearch做实时OLAP框架～实时搜索、统计和OLAP需求，甚至可以作为NOSQL来使用（转）
使用ElasticSearch作为大数据平台的实时OLAP框架 – lxw的大数据田地 http://lxw1234.com/archives/2015/12/588.htm 一直想找一个用于大数据平 ...
使用 Kafka 和 Spark Streaming 构建实时数据处理系统
使用 Kafka 和 Spark Streaming 构建实时数据处理系统来源:https://www.ibm.com/developerworks,这篇文章转载自微信里文章,正好解决了我项目中的技 ...

随机推荐

find文件删除
find /root/title/test -type f -name '*.txt' -exec rm {} \; 查找并删除test文件夹下所有txt文件 find /root/title/t ...
akka 集群分片
akka 集群 Sharding分片分片上下级结构集群(多台节点机) —> 每台节点机(1个片区) —> 每个片区(多个分片) —> 每个分片(多个实体) 实体: 分片管理的 A ...
Oracle粗心大意总结篇
有时候写sql语句不细心的话,很容易犯大错误,导致你纠结好久,找不到原因,慢慢总结: 错误1: SELECT * FROM( SELECT USER.*, ROWNUM AS CON FROM USE ...
最全caffe安装踩坑记录（Anaconda,nvidia-docker,Linux编译）
Anaconda,nvidia-docker,Linux三种方式安装caffe 1.Anaconda安装caffe 1.首先安装anaconda 2.创建虚拟环境(python2.7) conda c ...
苹果IOS内购二次验证返回state为21002的坑
项目是三四年前的老项目,之前有IOS内购二次验证的接口,貌似很久都没用了,然而最近IOS的妹子说接口用不了,让我看看啥问题.接口流程时很简单的,就是前端IOS在购买成功之后,接收到receipt后进行 ...
GIL与异步回调
07.07自我总结一.GIL 1.概念在CPython中,这个全局解释器锁,也称为GIL,是一个互斥锁 2.带来的问题首先必须明确执行一个py文件,分为三个步骤从硬盘加载Python解释器到内 ...
pyqt 主程序运行中处理其他事件（多线程的一种代替方式）
一.实验环境 1.Windows7x64_SP1 2.Anaconda2.5.0 + python2.7(anaconda集成,不需单独安装) 3.pyinstaller3.0 4.通过Anacond ...
ArcGIS API For JavaScript 开发（一）环境搭建
标签:B/S结构开发,Asp.Net开发,WebGIS开发前言:为什么写这个,一是学习:二是分享,共同进步,毕竟也是在这个园子里学到了很多: (一)环境搭建集成开发环境:VS2013 Ultima ...
Python基础之格式化输出、运算符、数字与布尔值互换以及while...else
python是一天学一点,就这样零零碎碎…… 格式化输出 %是占位符,%s是字符串格式,%d整数格式,%f是浮点数格式 name = input('输入姓名') age = input('输入年龄') ...
详解iframe与frame的区别
iframe与frame的区别一.使用iframe的优缺点优点: 1.程序调入静态页面比较方便; 2.页面和程序分离; 缺点: 1.iframe有不好之处:样式/脚本需要额外链入,会增加请求.另外 ...