Hudi 在 vivo 湖仓一体的落地实践】的更多相关文章

导读: 本文主要介绍哔哩哔哩在数据湖与数据仓库一体架构下,探索查询加速以及索引增强的一些实践.主要内容包括: 什么是湖仓一体架构 哔哩哔哩目前的湖仓一体架构 湖仓一体架构下,数据的排序组织优化 湖仓一体架构下,索引增强与优化的实践探索 -- 01 什么是湖仓一体 当我们讲湖仓一体时,涉及到数据湖和数据仓库两个概念. 什么是数据湖?通常来说,它有以下几个特点: 有一个统一的存储系统,所有的数据都放到这个统一的存储系统里,没有数据孤岛. 支持任意数据类型,比较自由,包括结构化.半结构化和非结构化的数…
摘要:华为云发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念,那我们就来看看湖仓一体的来世今生. 伴随5G.大数据.AI.IoT的飞速发展,数据呈现大规模.多样性的极速增长,为了应对多变的业务诉求,政企客户对数据处理分析的实时性和融合性提出了更高的要求,"湖仓一体"的概念应运而生,它打破数据湖与数仓间的壁垒,使得割裂数据融合统一,减少数据分析中的搬迁,实现统一的数据管理. 早在2020年5月份的华为全球分析师大会上,华为云CTO张宇昕提出了"湖仓一…
此前Apache Hudi社区一直有小伙伴询问能否使用Amazon Redshift查询Hudi表,现在它终于来了. 现在您可以使用Amazon Redshift查询Amazon S3 数据湖中Apache Hudi/Delta Lake表数据.Amazon Redshift Spectrum作为Amazon Redshift的特性可以允许您直接从Redshift集群中查询S3数据湖,而无需先将数据加载到其中,从而最大限度地缩短了洞察数据价值时间. Redshift Spectrum支持Lake…
作者:vivo 互联网AI团队- Liu Zuocheng.Zhou Baojian 本文根据周保建老师在"2022 vivo开发者大会"现场演讲内容整理而成.公众号回复[2022 VDC]获取互联网技术分会场议题相关资料. 使用基于有限有向图的调度框架,可以控制在线服务中异步调度的流程,但这对分支路径的管理不够友好,随着节点增多,调度流程会越来越复杂而难以控制.因此我们实现了支持分支路径的图调度框架,解决普通图调度框架可扩展性差的问题. 一.图调度框架简介 1.1 vivo效果广告预…
徐昱 Apache Hudi Contributor:华米高级大数据开发工程师 巨东东 华米大数据开发工程师 1. 应用背景及痛点介绍 华米科技是一家基于云的健康服务提供商,拥有全球领先的智能可穿戴技术.在华米科技,数据建设主要围绕两类数据:设备数据和APP数据,这些数据存在延迟上传.更新频率高且广.可删除等特性,基于这些特性,前期数仓ETL主要采取历史全量+增量模式来每日更新数据.随着业务的持续发展,现有数仓基础架构已经难以较好适应数据量的不断增长,带来的显著问题就是成本的不断增长和产出效率的…
摘要:对云端用户而言,业务价值发现是最重要的,华为MRS支持LakeFormation后,成功降低了数据应用的成本,帮助客户落地"存"与"算"的管理,加快推进了数智融合进程,更大程度地释放业务数据价值. 本文分享自华为云社区<华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价值>,作者:breakDawn. 1 背景 1.1 数仓和数据湖的概念 数据分析技术在2010~2019年间,以湖仓两层架构技术作为主流被各数据厂商所应用,即…
摘要:华为LakeFormation是企业级的一站式湖仓构建服务. 本文分享自华为云社区<华为云MRS支持LakeFormation能力,打造一站式湖仓,释放数据价值]>,作者:breakDawn . 1 背景 1.1 数仓和数据湖的概念 数据分析技术在2010~2019年间,以湖仓两层架构技术作为主流被各数据厂商所应用,即大数据数仓+数据湖的技术形式. 大数据数仓:出现最早,也最完备,从单机向分布式.智能化发展.例如 Hive.华为DWS等 数据湖:狭义上的湖主要是云厂商参与,以统一的对象存…
1. 传统数据湖存在的问题与挑战 传统数据湖解决方案中,常用Hive来构建T+1级别的数据仓库,通过HDFS存储实现海量数据的存储与水平扩容,通过Hive实现元数据的管理以及数据操作的SQL化.虽然能够在海量批处理场景中取得不错的效果,但依然存在如下现状问题: 问题一:不支持事务 由于传统大数据方案不支持事务,有可能会读到未写完成的数据,造成数据统计错误.为了规避该问题,通常控制读写任务顺序调用,在保证写任务完成后才能启动读任务.但并不是所有读任务都能够被调度系统约束住,在读取时仍存在该问题.…
作者:vivo 互联网容器团队- Pan Liangbiao 本文根据潘良彪老师在"2022 vivo开发者大会"现场演讲内容整理而成.公众号回复[2022 VDC]获取互联网技术分会场议题相关资料. 2018年起,vivo以容器作为基础底座,打造了一站式云原生机器学习平台.向上支撑了算法中台,为算法工程师提供数据管理.模型训练.模型管理.模型部署等能力,为广告.推荐和搜索等业务赋能,成功为算法实现了降本.提效,让云原生和容器价值初露锋芒.基于机器学习平台的试点成果,经过算法场景的试点…
一.概述 Apache Kafka 发展至今,已经是一个很成熟的消息队列组件了,也是大数据生态圈中不可或缺的一员.Apache Kafka 社区非常的活跃,通过社区成员不断的贡献代码和迭代项目,使得 Apache Kafka 功能越发丰富.性能越发稳定,成为企业大数据技术架构解决方案中重要的一环. Apache Kafka 作为一个热门消息队列中间件,具备高效可靠的消息处理能力,且拥有非常广泛的应用领域.那么,今天就来聊一聊基于 Kafka 的实时数仓在搜索的实践应用. 二.为什么需要 Kafk…