摘要:华为云发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念,那我们就来看看湖仓一体的来世今生. 伴随5G.大数据.AI.IoT的飞速发展,数据呈现大规模.多样性的极速增长,为了应对多变的业务诉求,政企客户对数据处理分析的实时性和融合性提出了更高的要求,"湖仓一体"的概念应运而生,它打破数据湖与数仓间的壁垒,使得割裂数据融合统一,减少数据分析中的搬迁,实现统一的数据管理. 早在2020年5月份的华为全球分析师大会上,华为云CTO张宇昕提出了"湖仓一…
导读: 本文主要介绍哔哩哔哩在数据湖与数据仓库一体架构下,探索查询加速以及索引增强的一些实践.主要内容包括: 什么是湖仓一体架构 哔哩哔哩目前的湖仓一体架构 湖仓一体架构下,数据的排序组织优化 湖仓一体架构下,索引增强与优化的实践探索 -- 01 什么是湖仓一体 当我们讲湖仓一体时,涉及到数据湖和数据仓库两个概念. 什么是数据湖?通常来说,它有以下几个特点: 有一个统一的存储系统,所有的数据都放到这个统一的存储系统里,没有数据孤岛. 支持任意数据类型,比较自由,包括结构化.半结构化和非结构化的数…
7 月 9 日,GOTC 2021 全球开源技术峰会上海站与 WAIC 世界人工智能大会共同举办,峰会聚焦 AI 与云原生两大以开源驱动的前沿技术领域,邀请国家级研究机构与顶级互联网公司的一线技术专家,为参会的开发者和技术爱好者带来了最硬的行业技术干货,提供了一个难得的技术交流平台. 在本次会议上,腾讯云高级工程师高策进行了题为"公有云上构建云原生 AI 平台的探索与实践"的技术分享,介绍了 AI 类业务在公有云上的现状以及相应的技术选型和面临的问题.最后通过分析开源社区和业界的趋势,…
一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk 关于Nishith Agarwal更详细的介绍,主要从事数据方面的工作,包括摄取标准化,数据湖原语等. 什么是数据湖?数据湖是一个集中式的存储,允许以任意规模存储结构化和非结构化数据.你可以存储原始数据,而不需要先转化为结构化的数据,基于数据湖之上可以运行多种类型的分析,如dashboard.大数据处理的可视化.实时分析.机器学习等. 接着看看对于构建PB…
从 Hudi v0.10.0 开始,我们很高兴地宣布推出适用于 Deltastreamer 的 Debezium 源,它提供从 Postgres 和 MySQL 数据库到数据湖的变更捕获数据 (CDC) 的摄取.有关详细信息请参阅原始 RFC 1. 背景 当想要对来自事务数据库(如 Postgres 或 MySQL)的数据执行分析时,通常需要通过称为更改数据捕获 CDC的过程将此数据引入数据仓库或数据湖等 OLAP 系统. Debezium 是一种流行的工具,它使 CDC 变得简单,其提供了一种…
T3出行的杨华和张永旭描述了他们数据湖架构的发展.该架构使用了众多开源技术,包括Apache Hudi和Alluxio.在本文中,您将看到我们如何使用Hudi和Alluxio将数据摄取时间缩短一半.此外,数据分析人员如何使用Presto.Hudi和Alluxio让查询速度提高了10倍.我们基于数据编排为数据管道的多个阶段(包括提取和分析)构建了数据湖. 1.T3出行数据湖总览 T3出行当前还处于业务扩张期,在构建数据湖之前不同的业务线,会选择不同的存储系统.传输工具以及处理框架,从而出现了严重的…
感谢王祥虎@wangxianghu 投稿 Apache Hudi是由Uber开发并开源的数据湖框架,它于2019年1月进入Apache孵化器孵化,次年5月份顺利毕业晋升为Apache顶级项目.是当前最为热门的数据湖框架之一. 1. 为何要解耦 Hudi自诞生至今一直使用Spark作为其数据处理引擎.如果用户想使用Hudi作为其数据湖框架,就必须在其平台技术栈中引入Spark.放在几年前,使用Spark作为大数据处理引擎可以说是很平常甚至是理所当然的事.因为Spark既可以进行批处理也可以使用微批…
此前Apache Hudi社区一直有小伙伴询问能否使用Amazon Redshift查询Hudi表,现在它终于来了. 现在您可以使用Amazon Redshift查询Amazon S3 数据湖中Apache Hudi/Delta Lake表数据.Amazon Redshift Spectrum作为Amazon Redshift的特性可以允许您直接从Redshift集群中查询S3数据湖,而无需先将数据加载到其中,从而最大限度地缩短了洞察数据价值时间. Redshift Spectrum支持Lake…
作为云原生技术先驱,腾讯云数据库内核团队致力于不断提升产品的可用性.可靠性.性能和可扩展性,为用户提供更加极致的体验.为帮助用户了解极致体验背后的关键技术点,本期带来腾讯云数据库专家工程师王鲁俊给大家分享的腾讯云原生数据库TDSQL-C的架构探索和实践,内容主要分为四个部分: 本次分享主要分为四个部分: 第一部分,介绍腾讯云原生数据库 TDSQL-C 产品架构,包括产品的研发背景和架构主要特性: 第二部分,分享用户场景实践,针对线上真实的用户场景做一些分析和针对性实践: 第三部分,分享系统关键优…
1. 简介 Apache Zeppelin 是一个提供交互数据分析且基于Web的笔记本.方便你做出可数据驱动的.可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark).Python(Apache Spark).SparkSQL. Hive. Markdown.Shell等等.当前Hive与SparkSQL已经支持查询Hudi的读优化视图和实时视图.所以理论上Zeppelin的notebook也应当拥有这样的查询能力. 2.实现效果 2.1 Hive 2.1…