Apache Hudi 0.5.1版本重磅发布】的更多相关文章

历经大约3个月时间,Apache Hudi 社区终于发布了0.5.1版本,这是Apache Hudi发布的第二个Apache版本,该版本中一些关键点如下 版本升级 将Spark版本从2.1.0升级到2.4.4 将Avro版本从1.7.7升级到1.8.2 将Parquet版本从1.8.1升级到1.10.1 将Kafka版本从0.8.2.1升级到2.0.0,这是由于将spark-streaming-kafka artifact从0.8_2.11升级到0.10_2.11/2.12间接升级 重要:Hud…
1. 下载连接 源代码下载:Apache Hudi 0.5.3 Source Release (asc, sha512) 0.5.3版本相关jar包地址:https://repository.apache.org/#nexus-search;quick~hudi 2. 迁移指南 这是一个bugfix版本,从0.5.2升级时不需要任何特殊的迁移步骤.如果要从早期版本"X"升级,请阅读"X"和0.5.3之间的每个后续版本的迁移指南. 0.5.3是Hudi毕业后的第一个版…
1. 重点特性 1.1 Flink集成 自从Hudi 0.7.0版本支持Flink写入后,Hudi社区又进一步完善了Flink和Hudi的集成.包括重新设计性能更好.扩展性更好.基于Flink状态索引的写入Pipeline:支持Flink写入MOR表:Flink批量读取COW和MOR表:流式读取MOR表:同时支持了Hudi作为Source和Sink的Flink SQL Connector,在Hudi 0.8.0版本发布后,用户可以使用Flink1.11+体验上述所有新特性. 想了解更多Flink…
1. 下载信息 源码:Apache Hudi 0.6.0 Source Release (asc, sha512) 二进制Jar包:nexus 2. 迁移指南 如果您从0.5.3以前的版本迁移至0.6.0,请仔细核对每个版本的迁移指南: 0.6.0版本从基于list的rollback策略变更为了基于marker文件的rollback策略,为进行平稳迁移,会在hoodie.properties文件中配置一个新属性hoodie.table.version:无论何时使用Hudi表新版本,如1(从0.6…
重点特性 1. Clustering 0.7.0版本中支持了对Hudi表数据进行Clustering(对数据按照数据特征进行聚簇,以便优化文件大小和数据布局),Clustering提供了更灵活地方式增加文件大小,有了Clustering特性,便可更快速地摄取数据,然后聚簇为更大的文件,实验数据表明查询性能可以提升34倍,文件数可以减少1020倍:另外Clustering对于查询侧优化也很明显,在查询时通常会基于字段进行Clustering,通过完全跳过一些文件来极大提升查询性能,这与云数仓Sno…
Flutter 1.17 是2020年的第一个稳定版本,此版本包括iOS平台Metal支持(性能更快),新的Material组件,新的Network跟踪工具等等! 对所有人来说,今年是充满挑战的一年.我们的目标是按季度节奏发布稳定的发行版:但是,此版本花费了更长的时间,因为我们一直在为新的发布过程重新调整基础架构.我们继续将质量作为第一要务,并相信新的发布模型将提高我们提供服务的能力. 自1.12稳定版本以来已关闭了前所未有的6,339个问题.这种增长的很大一部分归功于我们与Nevercode的…
1. 引入 Apache Hudi是一个开源的增量数据处理框架,提供了行级insert.update.upsert.delete的细粒度处理能力(Upsert表示如果数据集中存在记录就更新:否则插入). Hudi处理数据插入和更新,不会创建太多的小文件(小文件会导致查询端性能降低),Apache Hudi自动管理及合并小文件,让其保持指定大小,这避免了自建解决方案来监控和重写小文件为大文件. Hudi数据集在如下场景下非常适用 使用GDPR和CCPA法规来删除用户个人信息或修改个人信息用途. 处…
与许多其他事务数据系统一样,索引一直是 Apache Hudi 不可或缺的一部分,并且与普通表格式抽象不同. 在这篇博客中,我们讨论了我们如何重新构想索引并在 Apache Hudi 0.11.0 版本中构建新的多模式索引,这是用于 Lakehouse 架构的首创高性能索引子系统,以优化查询和写入事务,尤其是对于大宽表而言. 1. 为什么在 Hudi 中使用多模态索引 索引被广泛应用于数据库系统中,例如关系数据库和数据仓库,以降低 I/O 成本并提高查询效率.类似于书末的索引页如何帮助您快速定位…
1. 可用性 在Hudi最新master分支,由Hudi活跃贡献者Raymond Xu贡献了DataDog监控Hudi应用指标,该功能将在0.6.0 版本发布,也感谢Raymond的投稿. 2. 简介 Datadog是一个流行的监控服务.在即将发布的Apache Hudi 0.6.0版本中,除已有的报告者类型(Graphite和JMX)之外,我们将引入通过Datadog HTTP API报告Hudi指标的功能. 3. 配置 类似于其他支持的报告者,启用Datadog报告者需要以下两个属性. ho…
马萨诸塞州韦克菲尔德(Wakefield,MA)- 2020年6月 - Apache软件基金会(ASF).350多个开源项目和全职开发人员.管理人员和孵化器宣布:Apache Hudi正式成为Apache顶级项目(TLP).在投票表决Hudi毕业时,Hudi总共获得了19票binding(其中包括ASF联合创始人Jim Jagielski的一票),21票non-binding. Apache Hudi(Hadoop Upserts Delete and Incremental)数据湖技术可在Ap…