Hudi on Flink在顺丰的实践应用】的更多相关文章

​ 获取PDF版本 请关注"实时流式计算" 后台回复 "flink1015"…
Flink作为流批统一的计算框架,在1.10中完成了大量batch相关的增强与改进.1.10可以说是第一个成熟的生产可用的Flink Batch SQL版本,它一扫之前Dataset的羸弱,从功能和性能上都有大幅改进,以下我从架构.外部系统集成.实践三个方面进行阐述. 架构 Stack 首先来看下stack,在新的Blink planner中,batch也是架设在Transformation上的,这就意味着我们和Dataset完全没有关系了: 我们可以尽可能的和streaming复用组件,复用代…
本文由趣头条实时平台负责人席建刚分享趣头条实时平台的建设,整理者叶里君.文章将从平台的架构.Flink 现状,Flink 应用以及未来计划四部分分享. 一.平台架构 1.Flink 应用时间线 首先是平台的架构,2018 年 3 月之前基本都是基于 Storm 和 Spark Streaming 来做的.目前,基本已经把 Spark Streaming 和 Storm 淘汰了,主要都是 Flink SQL 来做的.起初还比较传统,一般是接需求然后开发类似于 Flink SQL 的任务,基本是手工…
摘要:本文所介绍 Nebula Graph 连接器 Nebula Flink Connector,采用类似 Flink 提供的 Flink Connector 形式,支持 Flink 读写分布式图数据库 Nebula Graph. 文章首发 Nebula Graph 官网博客:https://nebula-graph.com.cn/posts/nebula-flink-connector/ 在关系网络分析.关系建模.实时推荐等场景中应用图数据库作为后台数据支撑已相对普及,且部分应用场景对图数据的…
前不久,Flink社区发布了FLink 1.9版本,在其中包含了一个很重要的新特性,即state processor api,这个框架支持对checkpoint和savepoint进行操作,包括读取.变更.写入等等. savepoint的可操作带来了很多的可能性: 作业迁移 1.跨类型作业,假如有一个storm作业,将状态缓存在外部系统,希望更好的利用flink的状态机制来增加作业的稳定和减少数据的延迟,但如果直接迁移,必然面临状态的丢失,这时,可以将外部系统的状态转换为flink作业的save…
本次分享分为5个部分介绍Apache Hudi的应用与实践 实时数据落地需求演进 基于Spark+Hudi的实时数据落地应用实践 基于Flink自定义实时数据落地实践 基于Flink+Hudi的应用实践 后续应用规划及展望 1. 实时数据落地需求演进 实时平台上线后,主要需求是开发实时报表,即抽取各类数据源做实时etl后,吐出实时指标到oracle库中供展示查询. 随着实时平台的稳定及推广开放,各种使用人员有了更广发的需求: 对实时开发来说,需要将实时sql数据落地做一些etl调试,数据取样等过…
感谢王祥虎@wangxianghu 投稿 Apache Hudi是由Uber开发并开源的数据湖框架,它于2019年1月进入Apache孵化器孵化,次年5月份顺利毕业晋升为Apache顶级项目.是当前最为热门的数据湖框架之一. 1. 为何要解耦 Hudi自诞生至今一直使用Spark作为其数据处理引擎.如果用户想使用Hudi作为其数据湖框架,就必须在其平台技术栈中引入Spark.放在几年前,使用Spark作为大数据处理引擎可以说是很平常甚至是理所当然的事.因为Spark既可以进行批处理也可以使用微批…
来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动推荐系统中EB级数据量实践的分享. 接下来将分为场景需求.设计选型.功能支持.性能调优.未来展望五部分介绍Hudi在字节跳动推荐系统中的实践. 在推荐系统中,我们在两个场景下使用数据湖 我们使用BigTable作为整个系统近线处理的数据存储,这是一个公司自研的组件TBase,提供了BigTable的语义和搜索推荐广告场景下一些需求的抽象,并屏蔽底层存储的差异.为了更好的理解,这里可以把它直接看做一个HBase.在这过程中为了能够服务…
1. 业务背景介绍 客路旅行(KLOOK)是一家专注于境外目的地旅游资源整合的在线旅行平台,提供景点门票.一日游.特色体验.当地交通与美食预订服务.覆盖全球100个国家及地区,支持12种语言和41种货币的支付系统,与超过10000家商户合作伙伴紧密合作,为全球旅行者提供10万多种旅行体验预订服务. KLOOK数仓RDS数据同步是一个很典型的互联网电商公司数仓接入层的需求.对于公司数仓,约60%以上的数据直接来源与业务数据库,数据库有很大一部分为托管的AWS RDS-MYSQL 数据库,有超100…
人工智能是未来十年最重要的技术革命与驱动力,在各行各业产生着日益重要的作用,它与大数据的发展相辅相成,不仅推动人类社会迈入更智慧的世界,也为数据的应用带来无可估量的价值. 11 月 28 - 30 日,Flink Forward Asia 2019 人工智能专场将聚焦于 Flink 在机器学习上的新技术与新应用,内容包含: Flink 机器学习进度几何? 如何将 Flink 与 TensorFlow 等框架相结合? 有哪些 Flink 在机器学习上的生产实践应用? 为你呈现 Flink 机器学习…