马萨诸塞州韦克菲尔德(Wakefield,MA)- 2020年6月 - Apache软件基金会(ASF)、350多个开源项目和全职开发人员、管理人员和孵化器宣布:Apache Hudi正式成为Apache顶级项目(TLP)。在投票表决Hudi毕业时,Hudi总共获得了19票binding(其中包括ASF联合创始人Jim Jagielski的一票),21票non-binding。

Apache Hudi(Hadoop Upserts Delete and Incremental)数据湖技术可在Apache Hadoop兼容的云存储和分布式文件系统之上进行流处理。该项目最初于2016年在Uber开发(代号和发音为"Hoodie"),于2017年开源,并于2019年1月提交给Apache孵化器。

Apache Hudi项目VP Vinoth Chandar说:“在孵化器中学习和发展Apache之道是一种有益的体验,作为一个社区,我们对我们共同推动该项目走了多远依然感到谦卑,与此同时,对即将到来的挑战感到兴奋。”

Apache Hudi用于在Apache Hadoop分布式文件系统(HDFS)或云存储上使用流处理原语(例如插入更新和增量更改流)来管理PB级数据湖。Hudi数据湖提供了新鲜的数据,比传统批处理效率高一个数量级。 核心功能包括:

  • 可插拔式的索引支持快速Upsert / Delete。
  • 事务提交/回滚数据。
  • 支持捕获Hudi表的变更进行流式处理。
  • 支持Apache Hive,Apache Spark,Apache Impala和Presto查询引擎。
  • 内置数据提取工具,支持Apache Kafka,Apache Sqoop和其他常见数据源。
  • 通过管理文件大小,存储布局来优化查询性能。
  • 基于行存快速提取模式,并支持异步压缩成列存格式。
  • 用于审计跟踪的时间轴元数据。

阿里巴巴集团、亚马逊AWS、EMIS Health、Linknovate、Tathastu.AI、腾讯和Uber等组织。都在使用Apache Hudi,https://hudi.apache.org/docs/powered_by.html提供了使用Hudi的部分列表。

我们很高兴看到Apache Hudi毕业成为Apache顶级项目。Apache Hudi在Amazon EMR版本5.28和更高版本中受支持,并使拥有Amazon S3数据湖中数据的客户能够执行记录级的插入,更新和删除操作,以执行隐私法规,更改数据捕获(CDC)和简化的数据管道开发 ” AWS总经理Rahul Pathak说。 “我们期待与我们的客户和Apache Hudi社区合作,以帮助推进该项目。”

Apache Hudi项目管理委员会成员Nishith Agarwal说:“在Uber,Hudi近实时地管理地球上最大的交易数据湖之一,为全球用户提供有意义的体验,累计超过150 PB的数据和每天超过5,000亿条记录被提取,Uber的使用范围从关键业务工作流程到分析和机器学习。”

“使用Apache Hudi,用户可以轻松处理重读或重写的场景,并且Hudi使用Apache Parquet和Apache Avro管理存储在HDFS/COS/CHDFS上的基础数据。”腾讯云实时计算服务技术负责人Felix Zheng说道。

“随着云的基础设施越来越完善,用户的数据分析和计算方案逐步开始基于云上对象存储和计算资源构建数据湖平台。Hudi是一个很好的增量存储引擎,用开放的方式帮助用户管理好数据湖的数据,加速用户的计算和分析。”阿里云Data Lake Analytics - Lake Formation技术负责人李伟表示。

“Apache Hudi是Hopsworks Feature Store的关键模块,它提供了版本控制、增量和原子更新以及时间旅行查询等功能” Logical Clocks的CEO /联合创始人Jim Dowling说。“Hudi毕业成为Apache顶级项目,也是开源数据湖从早期的数据沼泽化身到现代支持ACID且可用于企业的数据平台。”

Uber工程平台高级总监Jennifer Anderson表示:“Hudi毕业成为Apache顶级项目是Hudi社区众多贡献者共同努力的结果。Hudi对于Uber大数据基础架构的性能和可伸缩性至关重要。我们很高兴看到它获得牵引力并实现了这一重要里程碑。”

Vinoth Chandar补充道:“到目前为止,Hudi已经开始在业界中就数据仓库和数据湖之间的巨大差距进行有意义的讨论。在Apache社区的帮助下我们连接起了其中一部分,但我们仅仅是从技术路线图着手。我们欢迎每位开发者做出更多贡献和合作以实现这一目标!”

可以访问(https://github.com/apache/hudi)[https://github.com/apache/hudi],给出你的star & fork.

在2020年6月7日至12日举行的Virtual Berlin Buzzwords,MeetUps和其他活动中了解Apache Hudi。

可用性和监督

Apache Hudi是根据Apache License v2.0发布的,并且由该项目的积极参与者自选团队进行监督。项目管理委员会(PMC)指导项目的日常运营,包括社区开发和产品发布。 有关下载,文档以及参与Apache Hudi的方式,请访问http://hudi.apache.org/和https://twitter.com/apachehudi

关于Apache孵化器

Apache孵化器是希望成为Apache Software Foundation工作的一部分的项目和代码库的主要入口。外部组织和现有外部项目的所有代码捐赠均通过孵化器进入ASF,以:1)确保所有捐赠均符合ASF法律标准; 2)建立符合我们指导原则的新社区。 所有新接受的项目都需要进行孵化,直到进一步的审查表明基础架构,通信和决策过程已经以与其他成功的ASF项目一致的方式稳定下来。 虽然孵化状态不一定反映代码的完整性或稳定性,但确实表明该项目尚未得到ASF的完全认可。有关更多信息,请访问http://incubator.apache.org/

关于Apache软件基金会(ASF)

这家全志愿者基金会成立于1999年,负责监督350多个领先的开源项目,其中包括Apache HTTP Server(世界上最受欢迎的Web服务器软件)。通过ASF称为“ Apache之道”的精英流程,六大洲的813名个人会员和7800个提交者成功地合作开发了免费的企业级软件,使全球数百万用户受益:数千种软件解决方案在Apache下分发执照;社区积极参与ASF邮件列表,指导计划以及ApacheCon(基金会的官方用户会议,培训和博览会)。ASF是一家美国501(c)(3)慈善组织,由个人捐款和企业赞助商资助,其中包括Aetna,阿里云计算,亚马逊AWS,Anonymous,百度,彭博社,Budget Direct,Capital One,CarGurus。 Cerner,Cloudera,Comcast,Facebook,Google,Handshake,Huawei,IBM,Inspur,Leaseweb,Microsoft,Pineapple Fund,Red Hat,Target,腾讯,Union Investment,Verizon Media和Workday。有关更多信息,请访问http://apache.org/和https://twitter.com/TheASF

Apache软件基金会。 “ Apache”,“ Hudi”,“ Apache Hudi”,“ Hadoop”,“ Apache Hadoop”和“ ApacheCon”是Apache软件基金会在美国和/或其他国家的注册商标或商标。所有其他品牌和商标均为其各自所有者的财产。

官宣!ASF官方正式宣布Apache Hudi成为顶级项目的更多相关文章

  1. 官宣!DolphinScheduler 毕业成为 Apache 软件基金会顶级项目

    全球最大的开源软件基金会 Apache 软件基金会(以下简称 Apache)于北京时间 2021年4月9日在官方渠道宣布Apache DolphinScheduler 毕业成为Apache顶级项目.这 ...

  2. Apache 软件基金会顶级项目 Pulsar 达成新里程碑:全球贡献者超 300 位!

    各位 Pulsar 社区小伙伴们: 今天我们高兴地宣布Pulsar 达成新里程碑,全球贡献者超 300 位! 距离 Pulsar 实现 200 位贡献者里程碑,仅仅间隔 8 个月! 作为 Apache ...

  3. 对于学习apache软件基金会顶级项目源码的一点思路(转)

    ASF的开源项目,为软件行业贡献了太多好的产品和软件思维.学习ASF的项目源码能很大的提升自身的能力.程序运行在服务器上的流程:执行启动脚本(start.sh) -> 指向程序的主方法 -> ...

  4. Apache Hudi:云数据湖解决方案

    1. 引入 开源Apache Hudi项目为Uber等大型组织提供流处理能力,每天可处理数据湖上的数十亿条记录. 随着世界各地的组织采用该技术,Apache开源数据湖项目已经日渐成熟. Apache ...

  5. Uber基于Apache Hudi构建PB级数据湖实践

    1. 引言 从确保准确预计到达时间到预测最佳交通路线,在Uber平台上提供安全.无缝的运输和交付体验需要可靠.高性能的大规模数据存储和分析.2016年,Uber开发了增量处理框架Apache Hudi ...

  6. Apache 顶级项目 Apache Pulsar 成长回顾

    关于 Apache Pulsar Apache Pulsar 是 Apache 软件基金会顶级项目,是下一代云原生分布式消息流平台,集消息.存储.轻量化函数式计算为一体,采用计算与存储分离架构设计,支 ...

  7. 官宣!Amazon EMR正式支持Apache Hudi

    ​Apache Hudi是一个开源的数据管理框架,其通过提供记录级别的insert, update, upsert和delete能力来简化增量数据处理和数据管道开发.Upsert指的是将记录插入到现有 ...

  8. 官宣!AWS Athena正式可查询Apache Hudi数据集

    1. 引入 Apache Hudi是一个开源的增量数据处理框架,提供了行级insert.update.upsert.delete的细粒度处理能力(Upsert表示如果数据集中存在记录就更新:否则插入) ...

  9. 官宣 | Apache Flink 1.12.0 正式发布,流批一体真正统一运行!

    官宣 | Apache Flink 1.12.0 正式发布,流批一体真正统一运行! 原创 Apache 博客 [Flink 中文社区](javascript:void(0) 翻译 | 付典 Revie ...

随机推荐

  1. [tgpl]go匿名函数

    [tgpl]go匿名函数 0. 定义 匿名函数顾名思义是没有名字的函数, Named functions can be declared only at the package level, but ...

  2. Spark Streaming 整合 Flume

    Spark Streaming 整合 Flume ​ 一.简介二.推送式方法        2.1 配置日志收集Flume        2.2 项目依赖        2.3 Spark Strea ...

  3. Java基础之数据类型

    一.数据类型 基本数据类型介绍 byte 1字节 char 2字节 short 2字节 int 4字节 long 8字节 float 4字节 double 8字节 以上有Java中八大基本类型的7种, ...

  4. 基于 abp vNext 和 .NET Core 开发博客项目 - 统一规范API,包装返回模型

    上一篇文章(https://www.cnblogs.com/meowv/p/12916613.html)使用自定义仓储完成了简单的增删改查案例,有心的同学可以看出,我们的返回参数一塌糊涂,显得很不友好 ...

  5. Python PIL Image图片显示系列

    1. PIL Image图片显示 在使用PIL函数中的Image方法读取图片时,对于图片的shape,可能有不少宝宝存在疑惑.是什么疑惑了?就是image = Image.open(image_pat ...

  6. Antd 修改主题颜色填坑记录

    首先,让我想说的是,现在有很多的更新,网上的一些也有的没用了, 接下来让我来分享一些我的解决方法,时间:2018.12/18. 1.和网上的一样,我用的是creat-react-app创建的项目,修改 ...

  7. ie ajax 跨域情况遇到的各种问题

    jQuery.support.cors = true; http://blog.csdn.net/jupiter37/article/details/25694289 jQuery ajax跨域调用出 ...

  8. Word使用技巧——持续更新

    Q1:word 2007 打开后默认显示缩略图而不是文档结构图? A1:三步曲 1)打开word,关闭缩略图,保存并关闭文档 2)重新打开word(此时应该没有显示缩略图),勾选上“文档结构图”,保存 ...

  9. 面向对象案例-学生信息管理系统V0.6

    更新版本 面向对象案例 - 学生信息管理系统V1.0 项目要求: 实体类: 学生类: id, 姓名,年龄,性别,成绩 需要使用数组保存学生信息 Student[] allStu 需要完成的方法 1. ...

  10. 【JAVA习题六】输入两个正整数m和n,求其最大公约数

    import java.util.Scanner; public class Oujilide欧几里得 { public static void main(String[] args) { // TO ...