使用DataWorks调度DLA循环任务

DataWorks是阿里云上的一款热门产品，可以为用户提供大数据开发调度服务。它支持了Data Lake Analytics（后文简称DLA）以后，DLA用户可以通过它进行定时任务调度，非常方便。本文将主要介绍如何使用DataWorks调度DLA的循环任务。

场景

使用DLA对历史数据按天做清洗。数据清洗的SQL是固定的，只是每次执行的时候需要传入不同的日期。

对于这个场景，我们需要：

部署一个赋值节点。该节点负责输出日期值，并作为下游循环节点的输入。
部署一个循环节点。该节点包含用来做数据清洗的一个或者一组SQL，其中关于日期取值是一个变量。每次循环输入值由赋值节点提供。

DataWorks操作

步骤一：新建业务流程和节点

登录DataWorks的控制台，并创建一个业务流程或使用原有的业务流程。

在新建的业务流程下，创建一个赋值节点和一个循环节点。

步骤二：配置赋值节点

打开节点“日期集合”的编辑页面。这里我们选择SHELL语言，将要执行的日期值写在一个数组里。

打开节点“日期集合”的调度配置页面。
在这里需要给赋值节点设置一个上游节点，这里可以设置为当前工作空间的root。比如我的工作空间名字叫jinluo_poc，则该节点为jinluo_poc_root。

步骤三：配置循环节点

双击循环节点进入编辑页面。可以看到三个节点，分别是start, sql和end。这里我们需要新建一个DLA的任务节点，并把sql替换为一个DLA的任务节点。

在调度配置页面设置依赖关系和节点上下文。上游节点设置为赋值节点“日期集合”，本节点的输入为赋值节点的输出。

设置DLA_SQL节点

选择一个DLA的数据源，并填写SQL。

这里面的pure_date的值是从赋值节点读入的。每次读取赋值节点的输出结果数组中的一个值。写法是固定的，如下所示。

h.`pure_date`=${dag.input[${dag.offset}]}

设置end节点

该节点的作用是控制循环的结束。
end节点的结束条件：是把dag.loopTimes进行比较，小于则输出True继续循环；不小于则输出False退出循环。dag.input.length变量，标识上下文参数input数组的行数。是系统自动根据节点配置的上下文下发的变量。

if ${dag.loopTimes} < ${dag.input.length}:

 print True

else:

 print False

在调度配置页面，需要设置上游节点。

设置完成，保存后，可以看到循环节点变更为

步骤四：发布

目前在DataWorks的开发界面暂不支持循环节点的运行，需要提交后在运维中心测试运行。
分别点击 “日期集合”和“数据清洗SQL”页面上的“提交按钮”进行提交。

在提交循环节点时，注意要勾选上所有的节点。

步骤五：运行

进入运维中心页面，在周期任务的列表里面可以看到我们刚刚提交的两个作业。

右键“日期集合” -> 补数据 -> 当前节点及下游节点可以手动执行该组任务。

提交后可以看到每个节点的运行状态。

参考

DataWorks官方文档：

http://help.aliyun-inc.com/internaldoc/detail/102311.html?spm=a2c1f.8259796.2.25.24fa96d5a5twQO

本文作者：金络

原文链接

本文为云栖社区原创内容，未经允许不得转载。

使用DataWorks调度DLA循环任务的更多相关文章

Data Lake Analytics: 使用DataWorks来调度DLA任务
DataWorks作为阿里云上广受欢迎的大数据开发调度服务,最近加入了对于Data Lake Analytics的支持,意味着所有Data Lake Analytics的客户可以获得任务开发.任务依赖 ...
[译] 所有你需要知道的关于完全理解 Node.js 事件循环及其度量
原文地址:All you need to know to really understand the Node.js Event Loop and its Metrics 原文作者:Daniel Kh ...
Linux系列（12）之例行工作调度
你知道工作调度有哪几种吗? 你知道在进行工作调度时需要哪些服务在运行吗? 你知道突发性工作调度的指令at的用法吗? 知道如何管理at的工作调度吗? 知道at指令进行工作调度的原理吗? 知道什么是背景任 ...
通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析
通过DataWorks归档日志服务数据至MaxCompute 官方指导文档:https://help.aliyun.com/document_detail/68322.html但是会遇到大家在分区上或 ...
【阿里云-大数据】阿里云DataWorks学习视频汇总
阿里云DataWorks学习视频汇总注意:本文档中引用的视频均来自阿里云官方的帮助文档,本文档仅仅是汇总整理,方便学习. 阿里云DataWorks帮助文档链接:https://help.aliyun ...
阿里云DataWorks实践：数据集成+数据开发
简介什么是DataWorks: DataWorks(数据工场,原大数据开发套件)是阿里云重要的PaaS(Platform-as-a-Service)平台产品,为您提供数据集成.数据开发.数据地图.数 ...
Dataworks批量刷数优化方案探讨
Dataworks批量刷数优化方案探讨在数据仓库的日常使用中,经常会有批量补数据,或者逻辑调整后批量重跑数据的场景. 批量刷数的实现方式,因调度工具差异而各有不同. Dataworks调度批量刷数局 ...
应用OpenMP的一个简单的设计模式
小喵的唠叨话:最近很久没写博客了,一是因为之前写的LSoftmax后馈一直没有成功,所以在等作者的源码.二是最近没什么想写的东西.前两天,在预处理图片的时候,发现处理200w张图片,跑了一晚上也才处理 ...
python之协程与IO操作
协程协程,又称微线程,纤程.英文名Coroutine. 协程的概念很早就提出来了,但直到最近几年才在某些语言(如Lua)中得到广泛应用. 子程序,或者称为函数,在所有语言中都是层级调用,比如A调用B ...

随机推荐

Leetcode401Binary Watch二进制手表
二进制手表顶部有 4 个 LED 代表小时(0-11),底部的 6 个 LED 代表分钟(0-59). 每个 LED 代表一个 0 或 1,最低位在右侧. 给定一个非负整数 n 代表当前 LED 亮着 ...
bzoj 1053 [HAOI2007]反素数ant——关于质数的dfs / 打表
题目:https://www.lydsy.com/JudgeOnline/problem.php?id=1053 写了个打表程序. #include<iostream> #include& ...
TZ_13_微服务场景Eureka
1.搭建Eureka的注册中心 1.1Eureka几个时间间隔配置详解 1 >客户端信息上报到eureka服务的时间周期,配置的值越小,上报越频繁,eureka服务器应用状态管理一致性越高 #客 ...
php静态变量问题
<?php$a=0; function test(){ static $a=0; $a+=1; echo $a; }test(); test(); ?>1.static是与销毁时间有关,与 ...
MyEclipse使用总结——MyEclipse10.6 下添加jadClipse反编译插件[转]
jad是一个使用比较广泛的Java反编译软件,jadClipse是jad在eclipse下的插件,下面像大家介绍下如何将jadclipse加入到MyEclipse10.X,9.X,8.X,6.X等各版 ...
python禁止函数修改列表的实现方法
python禁止函数修改列表的实现方法有时候,需要禁止函数修改列表.例如要对裂变进行修改操作,也要保留原来的未打印的设计列表,以供备案.为解决这个问题,可向函数传递列表的副本而不是原件:这样函数所做 ...
python基础--魔法方法、迭代器、上下文管理
isinstance:判断一个对象是否是某个类的实例参数一:要判断的对象参数二:要判断的类型 issubclass:判断一个类是否是另一个类的子类参数一:是待判断的子类参数二:待判断的父类 _ ...
【洛谷】P1567 统计天数
P1567 统计天数题目背景统计天数题目描述炎热的夏日,KC非常的不爽.他宁可忍受北极的寒冷,也不愿忍受厦门的夏天.最近,他开始研究天气的变化.他希望用研究的结果预测未来的天气. 经历千辛万苦 ...
SQL —— 存储过程
一.什么是存储过程预先存储好的SQL程序. 保存在SQL Server中(跟视图的存储方式一样) 通过名称和参数执行. 二.存储过程的优点执行速度更快允许模块化程序设计提高系统安全性减少网络 ...
Header解析
不管是作为后端还是前端开发人员,对于web请求的过程和参数都是需要了解的. 下面是对一次简单的http请求的header分析,作为自己的一个总结,也希望对大家有所帮助. 以Chrome为例: 我们对h ...

使用DataWorks调度DLA循环任务

场景

DataWorks操作

参考

使用DataWorks调度DLA循环任务的更多相关文章

随机推荐

热门专题