本文章经授权转载

Apache Kylin 上游通常有复杂的数据 ETL 过程,如 Hive 入库、数据清洗等;下游有报表刷新,邮件分发等。集成 Apache DolphinScheduler 后,Kylin 可以方便地将大数据平台各组件串联起来,让各个任务通过 DAG 统一调度。

01

背景

Apache Kylin 是一个支持海量大数据的在线分析引擎,需要离线或流式地从 Apache Hive、Apache Kafka 加载数据。通常当上游数据准备好以后,用户需要使用 Kylin 的 Web 界面或 API 触发以生成数据加载的任务。为了让整个工作流自动化起来,通常要结合一些任务调度平台,如 Oozie,Linux crontab 等。本文将介绍如何使用 Apache DolphinScheduler 这个新的开源平台跟 Kylin 进行集成完成数据构建。

02

什么是 DolphinScheduler

Apache DolphinScheduler(incubating)(简称 DS) 是一个 Apache 孵化器项目,是由国内企业易观开源的大数据项目,是一个面向大数据应用的分布式工作流任务调度系统,之前叫 EasyScheduler。目前,DS 在国内已经有一定规模的用户基础,包括美团 、平安、雪球等。

官网:https://dolphinscheduler.apache.org/

这里我们引用一下 DS 刚开源时的介绍 [1]:相信做过数据处理的伙伴们对开源的调度系统如 Oozie、Azkaban、Airflow 应该都不陌生,在使用这些调度系统中可能会有这样的体验:比如配置工作流任务不能可视化、任务的运行状态不能实时在线查看、 任务运行时不能暂停、不能支持参数传递、不能补数、不能多租户使用、调度系统不高可用等等问题所烦扰过。Easy Scheduler 正是在这种背景下应运而生,其目标就是为使调度更加 easy,更可以从其中文名“易调度”看出我们的初衷。

下图是一个跟 Azkaban、Airflow 的多方面对比:

从这个图上可以看出,DS 设计之初就考虑了高可用、多租户、可视化等高级功能,也支持扩展任务类型等,相比于其它工具来说,更适合企业内的复杂场景,可视化的操作界面也非常适合作为平台交给各部门自助使用(注:Airflow 目前也有多租户的支持)。

03

DS 的安装

为了验证 DS 的功能,我们决定先在一个单机上进行安装。参考文档后,发现它的安装配置步骤稍多,于是先尝试 Docker 安装;可惜的是,它的 Dockerfile 跟当前代码有一点不匹配,加上国内的网络条件,Docker build 较慢屡次失败,于是就放弃了,尝试单机用二进制包安装。

从官网 [2] 下载 1.2.0 版本的安装包,分前端和后端两个包;前端是一些静态文件,不到 2MB;后端是主程序,较大 127MB;前后端需要分别安装和配置。(据了解从 1.2.1 后,前后端将不再分离。)

参考前端安装文档 [3],将资源放到某个目录,然后安装和配置 Nginx,让其 8888 端口的静态资源从 DS 的前端目录获取,如果是 API 的调用,转给后端服务 12345 端口;了解 Nginx 配置的话这块不难。小注意一下,它的安装脚本 install-dolphinscheduler-ui.sh 会自动安装 Nginx,如果你的系统中已经有 Nginx 服务的话,需要手动修改脚本以避免重新安装。

后端的安装相对比较复杂一些。首先你需要准备前置条件:

1.  Linux 服务器一台,CentOS 6/7 或 Ubuntu;

2. 创建一个 DolphinScheduler 的 Linux 账户,有 sudo 权限,且开启免密码登录;因为要切换不同租户,所以单机安装也需要这个账户;

3. MySQL 5.5 或以上;起初我的 MySQL 版本较低(5.1),遇到 DB 初始化脚本失败的问题,切换高版本 MySQL 后解决;(注:目前 MySQL 8 也不支持);

4.  Zookeeper,用于协调多个节点的状态。

安装的时候,需要仔细查看它的安装文档 [4];文档中介绍了多节点的自动部署(为有自动化一键安装脚本点赞????),但没有介绍单节点的手动部署。我先用了它的自动部署脚本 install.sh,发现略有点复杂,在 DS 开发者的指导下改用手动部署。下面是一些注意事项:

1.  安装和启动服务的时候,切换到 dolphinscheduler用户,建议不要用 root;使用 root 会让一些新创建的目录权主是 root,其它用户不可访问;

2.  安装目录不要放到 /root 等高权限目录,最好放到 /opt 或 dolphinscheduler 的 home 目录下;

3. MySQL JDBC 连接的配置,除了在 conf/application-dao.properties 以外,还需要在 conf/quartz.properties 也里配置一下;

4. DS 的安装目录,需要显式地在 conf/common/common.properties 里配置一下,默认的安装目录 /data1_1T/dolphinscheduler 很可能不是你的安装路径;

5. 在 conf/config/run_config.conf 中配置各个节点的机器名;如果单机的话,配置本机的机器名;

6.  在 conf/zookeeper.properties 中配置 zk 地址;

7.  启动使用 scripts/start-all.sh 和 scripts/stop-all.sh  来启动和停止;如果不正常,检查在 logs 目录下的日志;

8.  确保 Nginx 之前已经正常启动。

04

DS 创建项目和进程

如果一切正常的话,浏览器打开  http://<host_name>:8888  就会出现 DS 的登录界面,初始用户/密码为:admin/dolphinscheduler123。

按照使用操作手册,先创建项目,再创建一个租户(tenant);租户就是运行任务的 Linux 用户。

创建租户后,还要将 DS 的用户跟租户进行绑定,默认的 admin 用户初始是没有租户的,所以需要进行绑定后才可以执行任务,切记;

在这之后,你就可以进入项目,创建进程(process)了,DS 提供了可视化的界面,让你可以图形化拖拽地方式定义工作流 DAG:

这里看到,DS 内置了若干种任务,例如 Spark, Flink,MapReduce,Shell, HTTP,Python 等,基本足够普通调度需求了。

05

DS 触发 Kylin 构建任务

我们的测试场景是 Kylin 的流式构建,需要每五分钟触发一次任务;Kylin 提供 Rest API 供外部触发,但本身不提供调度器;通常用户使用外部调度器或 Linux crontab 等服务来执行;使用 Linux crontab 最简单,但是难以监控和修改,因此一些用户会觉得麻烦。所以我们可以集成 DS 和 Kylin 做到一站式调度和监控。这里触发Kylin的构建任务,可以用 shell(如 curl)命令,也可以用 HTTP(post、put 等)的方式进行;这里我选择用 shell 因为它非常简单,在输入之前,先确保这个 shell 命令是无误的,手动在 Linux 命令行中执行验证。

随后对这个进程指定定时器(cron),语法基本上跟 Linux crontab 相同,用户还可以指定生效范围,通知策略等:

06

运行

之后分别上线这个定时器,以及这个进程;过一会儿我们就会在平台上看到执行的任务:

执行的详细日志也是可以直接在线查看:

Kylin 这边,我们看到任务被正常触发执行:

继续一天,两边平台都很稳定,180 多次调度都成功执行:

07

总结

DolphinScheduler 是一款功能强大的大数据调度平台。一次配置好任务流,后续就可以靠 DS 自动定时调度了,任务成功或出错都可以得到邮件通知。如果任务较多,可以水平添加更多节点以扩展资源。Kylin 上游通常有复杂的数据 ETL 过程,如 Hive 入库,数据清洗等;下游有报表刷新,邮件分发等;有了它可以方便地将大数据平台各组件串联起来,让各个任务通过 DAG 统一调度。此次时间有限,没有进一步测试 DS 的高级功能,后续如果社区基于插件机制开发出 Kylin 的触发器,对用户会更加简单易用。

在此也非常感谢 DolphinScheduler 社区的代立冬等小伙伴们,非常热心地帮忙回答和解决问题!

参考资料:

[1]http://www.clickhouse.com.cn/topic/5cab67b369c415035e68d526

[2]https://dolphinscheduler.apache.org/en-us/docs/release/download.html

[3]https://dolphinscheduler.apache.org/en-us/docs/1.2.0/user_doc/frontend-deployment.html

[4]https://dolphinscheduler.apache.org/en-us/docs/1.2.0/user_doc/backend-deployment.html

[5]https://dolphinscheduler.apache.org/en-us/docs/1.2.0/user_doc/quick-start.html

使用 DolphinScheduler 调度 Kylin 构建的更多相关文章

  1. 《基于Apache Kylin构建大数据分析平台》

    Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿 武汉市云升科技发展有限公司董事长,<智慧城市-大数据.物联网和云计算之应用>作者 ...

  2. 【转】Kylin系列-使用Saiku+Kylin构建多维分析OLAP平台

    关于Kylin的介绍和使用请参考之前的文章 <分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例> Kylin对外提供的是SQL查询接口,基于Kylin构建OL ...

  3. kylin构建cube优化

    前言 下面通过对kylin构建cube流程的分析来介绍cube优化思路. 创建hive中间表 kylin会在cube构建的第一步先构建一张hive的中间表,该表关联了所有的事实表和维度表,也就是一张宽 ...

  4. 基于 Hudi 和 Kylin 构建准实时高性能数据仓库

    在近期的 Apache Kylin × Apache Hudi Meetup直播上,Apache Kylin PMC Chair 史少锋和 Kyligence 解决方案工程师刘永恒就 Hudi + K ...

  5. 使用Kylin构建企业大数据分析平台的4种部署方式

    本篇博客重点介绍如何使用Kylin来构建大数据分析平台.根据官网介绍,其实部署Kylin非常简单,称为非侵入式安装,也就是不需要去修改已有的 Hadoop大数据平台.你只需要根据的环境下载适合的Kyl ...

  6. Kylin构建Cube过程详解

    1 前言 在使用Kylin的时候,最重要的一步就是创建cube的模型定义,即指定度量和维度以及一些附加信息,然后对cube进行build,当然我们也可以根据原始表中的某一个string字段(这个字段的 ...

  7. Kylin构建cube时状态一直处于pending

    在安装好kylin之后我直接去访问web监控页面发现能够进去,也没有去看日志.然后在运行官方带的例子去bulid cube时去发现状态一直是pending而不是runing.这个时候才去查看日志: 2 ...

  8. Saiku_学习_03_Saiku+Kylin构建多维分析OLAP平台

    一.技术选型 参见:Saiku+Kylin多维分析平台探索 1.saiku Saiku 作为分析平台,提供可视化的操作,能方便的对数据进行查询.分析,并提供图形化显示 2.kylin Kylin 作为 ...

  9. 8月Meetup | “数据调度+分析引擎”解锁企业数字化转型之路

    ​ 编辑切换为居中 添加图片注释,不超过 140 字(可选)   大数据是一种规模大到在获取.存储.管理.分析方面大大超出了传统数据库软件工具能力范围的数据集合,而大数据作为企业运转的基础,只有经过提 ...

随机推荐

  1. thusc2022游记

    DAY -1: 刷往年相关的题 DAY 0: 刷会儿题了,搞电脑,下obs.不过,发现电脑出了很多问题. obs没有录频效果,因为卡,杀毒软件把vc++全都删了.因此无dll文件错误,搞了一晚上都没搞 ...

  2. 管理订单状态,该上状态机吗?轻量级状态机COLA StateMachine保姆级入门教程

    前言 在平常的后端项目开发中,状态机模式的使用其实没有大家想象中那么常见,笔者之前由于不在电商领域工作,很少在业务代码中用状态机来管理各种状态,一般都是手动get/set状态值.去年笔者进入了电商领域 ...

  3. .NET C#基础(2):方法修饰符 - 给方法叠buff

    0. 文章目的   本文面向有一定.NET C#基础知识的学习者,介绍C#中的方法修饰符的含义和使用以及注意事项.   1. 阅读基础   理解C#基本语法(如方法声明)   理解OOP基本概念(如多 ...

  4. django框架8

    内容概要 ajax简介 前后端传输数据编码格式 ajax发送json格式数据 ajax携带文件数据 回调机制处理策略 内容详情 ajax简介 页面不刷新的情况下可以与后端进行数据交互 异步提交 局部刷 ...

  5. LVGL库入门教程01-移植到STM32(触摸屏)

    LVGL库移植STM32 LVGL库简介 LVGL(Light and Versatile Graphics Library)是一个免费.开源的嵌入式图形库,可以创建丰富.美观的界面,具有许多可以自定 ...

  6. SAP APO-需求计划

    需求计划可以对市场中的产品进行预测. 需求计划过程的输出就是需求计划,它考虑了影响需求的所有因素. 需求计划流程定义了需求计划周期中的活动. 由于需求计划过程以循环的形式进行,因此可以重复某些活动. ...

  7. CMU15445 (Fall 2019) 之 Project#1 - Buffer Pool 详解

    前言 这个实验有两个任务:时钟替换算法和缓冲池管理器,分别对应 ClockReplacer 和 BufferPoolManager 类,BufferPoolManager 会用 ClockReplac ...

  8. Day04 HTML标记

    路径 ./ 同级目录 ./ 进入该目录名下 ../ 上一级目录 HTML标记 图片 <!-- 图片标记 src 图片的路径 width 设置图片宽度 height 设置图片高度 title 鼠标 ...

  9. 一张图进阶 RocketMQ - 消息发送

    前 言 三此君看了好几本书,看了很多遍源码整理的 一张图进阶 RocketMQ 图片链接,关于 RocketMQ 你只需要记住这张图!觉得不错的话,记得点赞关注哦. [重要]视频在 B 站同步更新,欢 ...

  10. 《Domain Agnostic Learning with Disentangled Representations》ICML 2019

    这篇文章是ICML 2019上一篇做域适应的文章,无监督域适应研究的问题是如何把源域上训练的模型结合无lable的目标域数据使得该模型在目标域上有良好的表现.之前的研究都有个假设,就是数据来自哪个域是 ...