Azure Data Factory(简写 ADF)是Azure的云ETL服务,简单的说,就是云上的SSIS.ADF是基于云的ETL,用于数据集成和数据转换,不需要代码,直接通过UI(code-free UI)来设计,可进行直观监控和管理.用户还可以把现有的SSIS packages部署到Azure,并和ADF完全兼容地运行. 一,ADF适用的场景 在大数据的世界中,原始的.无结构的数据通常存在在关系型.非关系型和其他存储系统中,由于原始数据没有适当的上下文含义,无法被数据分析师.数据科学家提供…
一,引言 今天分享一个新的Azure 服务-----Azure Data Factory(Azure 数据工厂),怎么理解,参考根据官方解释-----数据工厂解释:大数据需要可以启用协调和操作过程以将这些巨大的原始数据存储优化为可操作的业务见解的服务. Azure 数据工厂是为这些复杂的混合提取-转换-加载 (ETL).提取-加载-转换 (ELT) 和数据集成项目而构建的托管云服务. 说简单点,Azure Data Factory 可以创建和计划数据驱动型工作,也就是 Pineline,从不同的…
一,引言 上一篇主要只讲了Azure Data Factory的一些主要概念,今天开始新的内容,我们开始通过Azure DevOps 或者 git 管理 Azure Data Factory 中的源代码,同时创建 Pipleline 将 Azure Blob1 的 Container 的数据通过 Copy Data 复制到 Azure Blob2的 Container中.我选择的是Azure DevOps 作为代码管理的工具 --------------------我是分割线----------…
一,引言 由于上一节文章内容过长,无法分享Azure Data Factory 的持续集成,持续发布.今天将着重介绍一下在使用 Azure DevOps Pipeline 发布,自动进行持续集成,并且已自动化发布,将Azure Data Factory 部署到多个环境中. 其实大家也不必惊讶,这里的部署其实也没有多么神秘的,我们在ADF中的 master 分支发布之后,其实会将ADF中所有的配置信息打包,编译到adf_master 分支下面,如果大家仔细看过发布之后的代码,就很很容易发现,都是一…
一,引言 上一篇有介绍到使用Azure Data Factory 复制数据,然后有集成 Azure DevOps 实现CI/CD,但是对于真正的项目来说,这些肯定是不够的,比如说在执行 Azure Pipeline 的过程中的监视,监视 Pipeline 的状态,想通过邮件的方式接受监视信息. --------------------我是分割线-------------------- 1,Azure Data Factory(一)入门简介 2,Azure Data Factory(二)复制数据…
一,引言 之前讲解的ADF 集成Azure DevOps 实现CI/CD,在 Releases Pipeline 阶段,我们是将两个 Blob Storage 的链接字符串复制.粘贴到 "Override template parameters",这样虽然说实现了对应的功能,但是也暴露出一定的问题,就是将 "UAT",甚至 "Pro" 环境的链接字符串暴露出来了,这样是很危险的.也是不允许的. 这个时候,有人就说了,可以使用共享访问签名,设定有效…
在大数据处理和人工智能时代,数据工厂(Data Factory)无疑是一个非常重要的大数据处理平台.市面上也有成熟的相关产品,比如Azure Data Factory,不仅功能强大,而且依托微软的云计算平台Azure,为大数据处理提供了强大的计算能力,让大数据处理变得更为稳定高效.由于工作中我的项目也与大数据处理相关,于是我就在思考,是否自己也可以设计打造一个数据工厂,以便寻求一些技术痛点的解决方案,并且引入一些有趣的新功能. 因此,我利用业余时间,逐步打造了一个基于Spark的数据工厂,并取名…
相较传统的重量级OLAP数据仓库,“数据湖”以其数据体量大.综合成本低.支持非结构化数据.查询灵活多变等特点,受到越来越多企业的青睐,逐渐成为了现代数据平台的核心和架构范式. 作为微软Azure上最新一代的数据湖服务,Data Lake Storage Gen2的发布,将云上数据湖的能力和体验提升上了一个新的台阶.在前面的文章中,我们已分别介绍了其基本使用和大数据集群挂载的场景.作为本系列的下篇,让我们继续深度体验之旅. ADLS Gen2体验:数据湖共享 在企业中,一个庞大的数据湖往往需要被共…
相较传统的重量级OLAP数据仓库,“数据湖”以其数据体量大.综合成本低.支持非结构化数据.查询灵活多变等特点,受到越来越多企业的青睐,逐渐成为了现代数据平台的核心和架构范式. 作为微软Azure上最新一代的数据湖服务,Data Lake Storage Gen2的发布,将云上数据湖的能力和体验提升上了一个新的台阶.在前面的文章中,我们已分别介绍了其基本使用和大数据集群挂载的场景.作为本系列的下篇,让我们继续深度体验之旅. ADLS Gen2体验:数据湖共享 在企业中,一个庞大的数据湖往往需要被共…
一,引言 之前我们在使用 Terraform 构筑一下 Azure 云资源的时候,直接将所以需要创建的资源全面写在 main.tf 这个文件中,这样写主要是为了演示使用,但是在实际的 Terraform 代码的整个项目代码结构是需要封装具体的 "Module",这里提到了 "Module" 也就是新的概念 "Common Module"."Common Mudule" 其实对于开发来说,其实就是封装的 "类库&quo…