阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。

摘要:欢迎来到DGC数据开发的世界,花十分钟跟着云小课一起学习云数据开发。本文主要介绍DGC数据开发的基本概念、优势、应用场景及数据开发的示例,帮助您快速掌握智能数据开发。

本文分享自华为云社区《【云小课】EI第36课 DGC数据开发之基础入门篇(10分钟扫盲)》,原文作者:阅识风云

DGC数据开发简介

数据湖治理中心 (Data Lake Governance Center,简称DGC) ,是具有智能数据管理能力的一站式治理运营平台,包含数据集成、数据开发、规范设计、数据质量监控、数据资产管理、数据服务、数据安全等功能。DGC数据开发又称数据湖工厂(Data Lake Factory,简称DLF),它可管理多种大数据服务,提供一站式的大数据开发环境、全托管的大数据调度能力,极大降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。

使用数据开发模块,用户可进行脚本开发、作业开发、作业调度、运维监控等操作,轻松完成整个数据的处理分析流程。

DGC数据开发的优势

应用场景

云上数仓快速搭建

通过数据集成模块将线下数据迁移到华为云上,将数据集成到华为云大数据服务中,并在数据开发模块中进行数据开发。

数据分析业务流自动化

通过数据开发模块实现数据导入、清洗、机器学习、数据回传、报表生成端到端流程自动化,把业务搬上自动化流水线。

复杂BI报表生成自动化

通过数据开发模块的脚本开发、数仓管理和作业开发功能,快速开发报表所需的脚本以及灵活自动生成BI报表。

海量日志轻松分析挖掘

通过DIS将日志数据接入到OBS存储(或者Cloud Search服务),然后通过数据开发模块服务编写数据开发脚本和数据挖掘脚本,实现海量日志分析和挖掘。

DGC数据开发示例

本节课我们将通过DLF的Hive SQL任务,定期执行脚本统计表数据,当表数据大于某个值发送通知为例进行介绍。

Step1:登录DGC控制台

Substep1:访问华为云管理控制台。

Substep2:单击管理控制台左上角的符号,选择区域和项目。

Substep3:在首页“服务列表”中,选择“大数据 > 数据湖治理中心DGC”,进入DGC服务的概览页面。

Step2:创建数据连接

数据连接用于保存DLF数据实体的连接信息,本示例需要先创建MRS Hive的数据连接,其中绑定的Agent由CDM集群提供。

Substep1:在DGC控制台的相应的工作空间,单击“管理中心”,进入数据连接页面。

Substep2:单击“创建数据连接”,弹出“创建数据连接”页面,配置如下所示。

Substep3:单击“测试”,测试数据连接的连通性。如果无法连通,数据连接将无法创建。

Substep4:单击“确定”,创建数据连接。

Step3:创建和开发脚本

数据连接“mrs_hive”创建完成后,需要在线开发SQL脚本,用于查询MRS Hive表“hive_dt”的信息。

Substep1:在DGC控制台的顶部导航栏,选择对应工作空间,单击“数据开发 > 脚本开发”。

Substep2:单击“新建SQL脚本 > Hive”,进入脚本开发页面。

Substep3:选择脚本的“数据连接”为“mrs_hive”、“数据库”为“hive_db”,输入如下SQL语句。

select * from hive_dt;

Substep4:单击“运行”,查询数据表“hive_dt”,执行结果如下所示。

Substep5:单击保存脚本。

Substep6:单击保存并提交版本,提交后的脚本在下一步的作业中使用。

Step4:创建和开发作业

脚本“hive_sql”开发完成后,需要通过作业进行编排和调度,实现定期执行脚本,统计MRS Hive表数据的任务。

Substep1:在DGC控制台的顶部导航栏,选择对应工作空间,单击“数据开发 > 作业开发”。

Substep2:单击“新建作业”,弹出“新建作业”页面,配置如下所示。

Substep3:单击“确定”,新建作业。

Substep4:进入作业开发页面,拖动Hive SQL节点任务到画布并单击,在右侧的“节点属性”页面配置如下所示。

Substep5:单击右侧的“调度配置”页签,配置调度信息,如下所示。

Substep6:单击保存作业。

Substep7:单击保存并提交版本。

  • 提交后的作业可以在作业监控页面查看作业的运行情况和结果;
  • 作业每次运行,都会对应产生一次作业实例记录。在实例监控页面,可以查看作业的实例信息。

Step5:配置通知任务

作业“job_hive_sql”开发完成后,配置作业的通知任务,当作业运行异常时向相关人员发送通知。

Substep1:登录DGC控制台,进入数据开发模块。

Substep2:单击“运维调度 > 通知管理”。

Substep3:在作业的“操作”列,单击“编辑”,弹出“编辑通知”页面,配置如下所示。

Substep4:单击“确定”,完成作业通知配置任务。

Step6:查看作业和实例运行记录

作业的调度任务启动后,可以查看作业和实例任务的运行记录与结果。

Substep1:登录DGC控制台,进入数据开发模块。

Substep2:单击“运维调度 > 作业监控”。

Substep3:单击作业名称,查看作业的详细运行情况。

Substep4:单击“运维调度 > 实例监控”。

Substep5:单击作业名称前的,查看作业运行产生实例的详细运行情况。

----结束

好了,本期云小课就介绍到这里,学习完本期课程,您是否觉得数据开发竟然这么简单呢。哈哈,快去登录华为云数据湖治理中心Console体验一下吧,想要了解更多数据开发的知识,猛戳这里。

点击关注,第一时间了解华为云新鲜技术~

云小课|DGC数据开发之基础入门篇的更多相关文章

  1. 云小课|MRS基础原理之MapReduce介绍

    阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说).深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云.更多精彩内容请单击此处. 摘要:MapReduce ...

  2. Linux及Arm-Linux程序开发笔记(零基础入门篇)

    Linux及Arm-Linux程序开发笔记(零基础入门篇)  作者:一点一滴的Beer http://beer.cnblogs.com/ 本文地址:http://www.cnblogs.com/bee ...

  3. 【Linux开发】Linux及Arm-Linux程序开发笔记(零基础入门篇)

    Linux及Arm-Linux程序开发笔记(零基础入门篇) 作者:一点一滴的Beer http://beer.cnblogs.com/ 本文地址:http://www.cnblogs.com/beer ...

  4. Hadoop生态圈-大数据生态体系快速入门篇

    Hadoop生态圈-大数据生态体系快速入门篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.大数据概念 1>.什么是大数据 大数据(big data):是指无法在一定时间 ...

  5. SQLAlchemy 教程 —— 基础入门篇

    SQLAlchemy 教程 -- 基础入门篇 一.课程简介 1.1 实验内容 本课程带领大家使用 SQLAlchemy 连接 MySQL 数据库,创建一个博客应用所需要的数据表,并介绍了使用 SQLA ...

  6. FPGA基础入门篇(四) 边沿检测电路

    FPGA基础入门篇(四)--边沿检测电路 一.边沿检测 边沿检测,就是检测输入信号,或者FPGA内部逻辑信号的跳变,即上升沿或者下降沿的检测.在检测到所需要的边沿后产生一个高电平的脉冲.这在FPGA电 ...

  7. JS基础入门篇(三十五)—面向对象(二)

    如果没有面向对象这种抽象概念的小伙伴,建议先看一下我写的JS基础入门篇(三十四)-面向对象(一)

  8. 云小课 | 搬迁本地数据至OBS,多种方式任你选

    摘要:搬迁本地数据至OBS,包括OBS工具方式.CDM方式.DES磁盘方式.DES Teleport方式和云专线方式,每种方式特点不同,本节课我们就一起看看有什么区别. 已有的业务数据可能保存在本地的 ...

  9. 云小课|带你揭开IP地址的神秘身份

    摘要:本文带你了解网络云产品和相关的知识内容. 华为云网络服务大家族提供了丰富的云产品,可以满足用户的各种网络互联需求.相应地,华为云帮助中心也贴心的奉上了你想了解的所有网络云产品知识. 可是小课最近 ...

随机推荐

  1. FFT/NTT复习笔记&多项式&生成函数学习笔记Ⅰ

    众所周知,tzc 在 2019 年(12 月 31 日)就第一次开始接触多项式相关算法,可到 2021 年(1 月 1 日)才开始写这篇 blog. 感觉自己开了个大坑( 多项式 多项式乘法 好吧这个 ...

  2. Codeforces 582D - Number of Binominal Coefficients(Kummer 定理+数位 dp)

    Codeforces 题目传送门 & 洛谷题目传送门 一道数论与数位 dp 结合的神题 %%% 首先在做这道题之前你需要知道一个定理:对于质数 \(p\) 及 \(n,k\),最大的满足 \( ...

  3. 【豆科基因组】绿豆Mungbean, Vigna radiata基因组2014NC

    目录 来源 一.简介 二.结果 基因组组装 重复序列和转座子 基因组特征和基因注释 绿豆的驯化 豆科基因组复制历史 基于转录组分析的豇豆属形成 绿豆育种基因组资源 三.讨论 四.方法 材料 组装 SN ...

  4. R 语言实战-Part 4 笔记

    R 语言实战(第二版) part 4 高级方法 -------------第13章 广义线性模型------------------ #前面分析了线性模型中的回归和方差分析,前提都是假设因变量服从正态 ...

  5. Redis队列跟MQ的区别

    Redis队列:Redis队列是一个Key-Value的NoSQL数据库,开发维护很活跃,虽然是一个Key-Value数据库存储系统,但它本身支持MQ功能,所以完全可以当做一个轻量级的队列服务来使用 ...

  6. Golang使用validator进行数据校验及自定义翻译器

    Golang使用validator进行数据校验及自定义翻译器 包下载:go get github.com/go-playground/validator/v10 一.概述 在接口开发经常会遇到一个问题 ...

  7. 通过mac地址确认二层交换机某个端口下接的终端设备IP

    正常来说,二层交换机主要是通过mac地址进行通信的,这就导致我们无法直接通过arp表来确认交换机端口下终端设备的IP: 但我们仍然能通过查找二层交换机端口下学习到的mac地址,然后通过对照三层核心交换 ...

  8. 作业帮上万个 CronJob 和在线业务混部,如何解决弱隔离问题并进一步提升资源利用率?

    作者 吕亚霖,作业帮基础架构 - 架构研发团队负责人.负责技术中台和基础架构工作.在作业帮期间主导了云原生架构演进.推动实施容器化改造.服务治理.GO 微服务框架.DevOps 的落地实践. 别路,作 ...

  9. Flink(三)【核心编程】

    目录 一.Environment 二.Source 从集合读取数据 从文件读取数据 从kakfa读取数据(常用) 自定义数据源 三.Transform map Rich版本函数 flatMap key ...

  10. 零基础学习java------day27-28---------电影评分数据案例,. RPC案例

    一.  电影评分数据案例 movie:电影id rate:用户评分 timeStamp:评分时间 uid:用户id 简化数据: 需求: (1)每个用户评分最高的3部电影 (2)每个用户评分的平均值 ( ...