一,引言

  在本文中,我们将继续了解什么是 Azure Data Factory,Azure Data Factory 的工作原理,Azure Data Factory 数据工程中的数据管道,并了解继承运行时 ----- IR。

--------------------我是分割线--------------------

1,Azure Data Factory(一)入门简介

2,Azure Data Factory(二)复制数据

3,Azure Data Factory(三)集成 Azure Devops 实现CI/CD

4,Azure Data Factory(四)集成 Logic App 的邮件通知提醒

5,Azure Data Factory(五)Blob Storage 密钥管理问题

6,Azure Data Factory(六)数据集类型为Dataverse的Link测试

7,Azure Data Factory(七)数据集验证之用户托管凭证

8,Azure Data Factory(八)数据集验证之服务主体(Service Principal)

9,Azure Data Factory(九)基础知识回顾

二,正文

1,什么是 Azure Data Factory ?  

  Azure Data Factory 是一种基于云的数据继承服务,允许组织城建,计划和编排数据管道。Azure Data Factory 提供了可视化界面或基于代码的方式来集成来自各种来源的数据,对其进行转化和处理,然后再将其加载到数据目标存储中。

  Azure Data Factory 支持广泛的数据源,包括本地和基于云上的数据源,例如  Sql Server,Azure Blob,Dataverse 等等,它还提供数据移动,数据转化,监控和管理等功能,使其成为数据集成的综合解决方案。

2,ADF 的工作原理是什么?

  Azure 数据工厂 (ADF) 通过提供可视化界面或基于代码的方法来定义、计划和执行数据管道。这些管道可用于执行各种任务,包括数据移动和转换。

以下是 ADF 工作原理所涉及的步骤:

  1. 创建数据工厂:第一步是在 Azure 中创建数据工厂。这可以在 Azure 门户中或使用 Azure CLI 完成。
  2. 定义数据源和目标:创建数据工厂后,您需要定义要在管道中使用的数据源和目标。数据源可以是本地的或基于云的,目标可以是 Azure Data Lake Storage、Azure Blob 存储或 Azure SQL 数据库。
  3. 创建管道:管道是 ADF 的构建块。它们定义了移动和转换数据所需的步骤。可以在 ADF 可视化界面中或使用 Azure 数据工厂 SDK 创建管道。
  4. 计划管道:可以安排管道定期运行或按需运行。这允许您自动执行数据管道。
  5. 监视管道:ADF 提供监视功能,以便您可以监视管道的状态、查看日志并管理已处理的数据。

  ADF 是一个功能强大的工具,可以帮助您为各种数据集成场景构建、调度和编排数据管道。对于需要的各种规模的组织来说,这是一个不错的选择到集成来自各种来源的数据并将其加载到各种目标中。

这里有一些额外的细节关于 ADF 的工作原理:

  • 数据连接器:ADF 支持各种数据连接器,包括本地数据源和基于云的数据源。这使得您可以轻松地将来自各种来源的数据集成到数据管道中。
  • 数据转换:ADF 提供各种数据转换活动,例如复制数据、转换数据和运行脚本。这可以让你到根据以下内容操纵和塑造您的数据到您的需求。
  • 调度和监控:ADF 提供调度和监控功能,因此您可以自动执行数据管道并监控数据的状态。这有助于您确保数据管道按预期运行并且数据始终是最新的。
  • 集成运行时:ADF 提供集成运行时,负责执行管道中的活动。集成运行时分为三种类型:Azure IR、自托管 IR 和 Azure-SSIS IR。这使您可以根据您的特定需求选择正确的集成运行时。
  • 安全功能:ADF 提供多种安全功能到保护您的数据,例如数据加密和访问控制。这可以帮助您确保您的数据安全并且只能访问到授权用户。

3,Azure 数据工厂中的数据管道

  ADF 中的管道是数据集成的构建块,使您能够到自动执行复杂的任务,例如数据移动、转换和决策。管道由一项或多项活动组成,它们是 ADF 中的基本工作单元。有多种类型的活动可供选择,每种活动都经过精心设计到执行特定任务。

  1)数据移动:
使用复制数据活动到从一个移动数据地点 到其他。此活动支持广泛的数据源和目标,包括本地数据源和基于云的数据源。通过复制数据活动,您可以执行从源数据存储复制数据等操作到目标数据存储或从其中复制数据地点 到数据存储中的另一个。

  2)数据转换:
ADF 提供了多种转型活动,使您能够到操纵和塑造您的数据。例如,您可以使用派生列活动到基于表达式、Lookup 活动创建新列到从另一个数据源检索数据,以及聚合活动到汇总数据。ADF 还支持使用 Azure Databricks 或 Azure Functions 进行基于代码的转换,为您提供灵活性到创建量身定制的自定义转换到您的具体需求。

1,控制流:
管道可以包括控制流活动,使您能够到根据条件执行操作。例如,您可以使用 If Condition 活动到根据表达式的结果或 For Each 活动执行不同的活动到对集合中的每个项目执行相同的一组活动。这些活动可以让你到创建可以适应的复杂工作流程到改变数据和条件。

2,依赖关系:
管道可以包括依赖关系活动之间,它决定活动执行的顺序。例如,您可以指定一个活动只能在另一个活动完成后启动,或者多个活动应并行运行。这些依赖关系让你到创建高效的工作流程,最大限度地减少延迟并最大限度地提高资源利用率。

3,监控和管理:
  ADF 提供强大的监控和管理功能,使您能够到监视管道的状态、查看日志并管理已处理的数据。您可以在 ADF 可视化界面中查看管道、活动和数据集的状态,或使用 Azure 数据工厂 REST API 以编程方式检索状态信息。这可以让你到快速识别任何问题或瓶颈并采取纠正措施到确保您的数据集成工作流程顺利运行。

4,了解集成运行时 (IR)

  集成运行时 (IR) 是 Azure 数据工厂 (ADF) 的基本组件,可帮助您到轻松执行和管理数据集成工作流程。IR 提供了一个安全、可扩展且受管理的环境,用于运行管道中指定的活动,例如数据移动和转换任务。

让我们更深入地研究 Integration Runtime 在 ADF 中的作用:

目的: IR 的主要目标是到为执行数据集成活动提供安全、托管且可扩展的环境。通过抽象基础设施和网络复杂性,IR 使您能够到只专注于构建数据集成逻辑,而不用担心底层细节.

类型:它负责执行管道中的活动。IR 分为三种类型:

  • Azure IR:此 IR 用于基于云的数据源和目标之间的数据集成。
  • 自托管 IR:此 IR 用于本地和基于云的数据源和目标之间的数据集成。
  • Azure-SSIS IR:此 IR 用于需要托管环境来执行 SQL Server Integration Services (SSIS) 包的数据集成方案。

安全性:IR 非常重视安全性,自动处理网络安全和数据加密问题。此外,IR 支持 Azure Active Directory (AAD) 身份验证,使您能够到使用 AAD 凭据安全地访问数据源和目标。

可扩展性:IR设计到应对可扩展性挑战,自动调整基础设施和网络资源到满足您的数据集成任务的需求。例如,IR 可以在峰值负载期间自动增加集群中的节点数量,并在负载下降时自动减少节点数量。

监控:IR提供实时监控和管理功能,使您到跟踪数据集成操作的性能和状态。您可以通过 ADF 可视化界面监视 IR、管道和活动,或使用 Azure 数据工厂 REST API 以编程方式检索状态信息。

总之,集成运行时是 Azure 数据工厂不可或缺的组件,为执行数据集成工作流提供安全、可扩展和托管的环境。借助 IR,您可以灵活、可扩展地执行数据集成操作,让工作变得更加轻松到满足您的数据集成场景的需求。

三,结尾

  今天我们继续介绍了 Azure Data Factory 的概念知识,集合前几期实践内容,能更好的了解 Azure Data Factory 常见的组件,更清晰的了解我们可以使用 Azure Data Factory 为我们的项目做哪些贡献了。

参考链接:Azure 数据工厂

作者:Allen

版权:转载请在文章明显位置注明作者及出处。如发现错误,欢迎批评指正。

Azure Data Factory(九)基础知识回顾的更多相关文章

  1. java基础知识回顾之---java String final类普通方法

    辞职了,最近一段时间在找工作,把在大二的时候学习java基础知识回顾下,拿出来跟大家分享,如果有问题,欢迎大家的指正. /*     * 按照面向对象的思想对字符串进行功能分类.     *      ...

  2. python爬虫主要就是五个模块:爬虫启动入口模块,URL管理器存放已经爬虫的URL和待爬虫URL列表,html下载器,html解析器,html输出器 同时可以掌握到urllib2的使用、bs4(BeautifulSoup)页面解析器、re正则表达式、urlparse、python基础知识回顾(set集合操作)等相关内容。

    本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...

  3. Azure Data Factory(三)集成 Azure Devops 实现CI/CD

    一,引言 由于上一节文章内容过长,无法分享Azure Data Factory 的持续集成,持续发布.今天将着重介绍一下在使用 Azure DevOps Pipeline 发布,自动进行持续集成,并且 ...

  4. Azure Data Factory(五)Blob Storage 密钥管理问题

    一,引言 之前讲解的ADF 集成Azure DevOps 实现CI/CD,在 Releases Pipeline 阶段,我们是将两个 Blob Storage 的链接字符串复制.粘贴到 "O ...

  5. C#基础知识回顾-- 反射(3)

    C#基础知识回顾-- 反射(3)   获取Type对象的构造函数: 前一篇因为篇幅问题因为篇幅太短被移除首页,反射这一块还有一篇“怎样在程序集中使用反射”, 其他没有什么可以写的了,前两篇主要是铺垫, ...

  6. C#基础知识回顾-- 反射(1)

    C#基础知识回顾-- 反射(1)   反射(reflection)是一种允许用户获得类型信息的C#特性.术语“反射”源自于它的工作方式: Type对象映射它所代表的底层对象.对Type对象进行查询可以 ...

  7. C#基础知识回顾--线程传参

    C#基础知识回顾--线程传参 在不传递参数情况下,一般大家都使用ThreadStart代理来连接执行函数,ThreadStart委托接收的函数不能有参数, 也不能有返回值.如果希望传递参数给执行函数, ...

  8. Java基础知识回顾之七 ----- 总结篇

    前言 在之前Java基础知识回顾中,我们回顾了基础数据类型.修饰符和String.三大特性.集合.多线程和IO.本篇文章则对之前学过的知识进行总结.除了简单的复习之外,还会增加一些相应的理解. 基础数 ...

  9. C++ 基础知识回顾总结

    一.前言 为啥要写这篇博客?答:之前学习的C和C++相关的知识,早就被自己忘到一边去了.但是,随着音视频的学习的不断深入,和C/C++打交道的次数越来越多,看代码是没问题的,但是真到自己操刀去写一些代 ...

  10. scrapy实战1,基础知识回顾和虚拟环境准备

        视频地址 https://coding.imooc.com/learn/list/92.html   一. 基础知识回顾     1. 正则表达式 1)贪婪匹配,非贪婪匹配 .*? 非贪婪 . ...

随机推荐

  1. MQ系列12:如何保证消息顺序性

    MQ系列1:消息中间件执行原理 MQ系列2:消息中间件的技术选型 MQ系列3:RocketMQ 架构分析 MQ系列4:NameServer 原理解析 MQ系列5:RocketMQ消息的发送模式 MQ系 ...

  2. NFS远程挂载

    NFS远程挂载 一.概述 NFS是一种基于TCP/IP 传输的网络文件系统协议.通过使用NFS协议,客户机可以像访问本地目录一样访问远程服务器中的共享资源 NAS存储: NFS服务的实现依赖于RPC ...

  3. Ubuntu 16.04关闭系统自动更新

    # 背景在使用阿里云ECS服务器时,服务器CPU与内存突然增大,经过排查发现是系统自动更新导致,幸运的是不是发生在业务高峰期,为了避免出现类似的情况,决定禁用系统自动更新,可以通过手动或者定时任务的方 ...

  4. 带你彻底掌握Bean的生命周期

    摘要:我们将深入研究Spring Framework的核心部分--Spring Bean的生命周期. 本文分享自华为云社区<Spring高手之路5--彻底掌握Bean的生命周期>,作者: ...

  5. Winform或WebForm使用ReportViewer报表设计,工具栏按钮英文显示的解决办法

    在项目开发中,我们总是会用到rdlc报表设计器,大多数情况下在本地开发环境中工具栏按钮显示的是中文,但是部署到客户环境后发现显示的是英文. 解决这个问题也是走了很多弯路,给大家简单说一下: 1.最初以 ...

  6. 大模型微调技术LoRA与QLoRA

    LoRA: Low-Rank Adaptation of Large Language Models 动机 大模型的参数量都在100B级别,由于算力的吃紧,在这个基础上进行所有参数的微调变得不可能.L ...

  7. 让IIS支持.NET Web Api PUT和DELETE请求

    前言 有很长一段时间没有使用过IIS来托管应用了,今天用IIS来托管一个比较老的.NET Fx4.6的项目.发布到线上后居然一直调用不同本地却一直是正常的,关键是POST和GET请求都是正常的,只有P ...

  8. Docker、CICD持续集成部署、Gitlab使用、Jenkins介绍

    目录 1.Docker的基本操作 1.1镜像拉取 1.2镜像的操作 1.3容器的操作 运行容器 查看正在运行的容器 查看容器运行日志 进入到容器内部 停止容器运行 删除容器 启动容器 2.Docker ...

  9. CF1799B Equalize by Divide题解

    本蒟蒻学习了jiangly大佬的思想,来发一个题解. 大致题意: 给定一个 \(n\) 个元素的数组 \(a\),每次可以选择 \(a[i]\) 和 \(a[j]\),然后使 \(a[i] = \lc ...

  10. 【WebRtc】获取音视频数据

    首页截图 获取音视频 关键Code 获取摄像头数据 /** * 获取流数据 */ openUserMeida() { var that = this // 判断是否支持获取媒体数据 if (!navi ...