Apache Hudi 0.6.0版本重磅发布

1. 下载信息

源码：Apache Hudi 0.6.0 Source Release (asc, sha512)
二进制Jar包：nexus

2. 迁移指南

如果您从0.5.3以前的版本迁移至0.6.0，请仔细核对每个版本的迁移指南；
0.6.0版本从基于list的rollback策略变更为了基于marker文件的rollback策略，为进行平稳迁移，会在hoodie.properties文件中配置一个新属性hoodie.table.version；无论何时使用Hudi表新版本，如1（从0.6.0以前迁移到0.6.0），将会自动进行升级，并且只会对Hudi表升级一次，升级后hoodie.table.version属性将会自动更新。
类似也提供了一个降级命令行工具(-downgrade)，如用户想从0.6.0版本回退到之前的版本，此时hoodie.table.version将会从1变为0。
如果你在bulkInsert() RDD API中使用了自定义partitioner，注意0.6.0版本中该接口变为了BulkInsertPartitioner，需要对你的实现做适配。

3. 重点特性

3.1 写入端改进

对已有Parquet表进行迁移：支持通过Spark Datasource/DeltaStreamer引导已存在的Parquet表迁移至Hudi，同时可通过Hive，SparkSQL，AWS Athena进行查询（PrestoDB即将支持），技术细节请参考RFC-15。该特性暂时标记为experimental，在后续的0.6.x版本将持续进行完善。与传统重写方案相比资源消耗和耗时都有数据量的提升。
bulk_insert支持原生写入：避免在bulk_insert写入路径中进行DataFrame - RDD转化，可显著提升bulk load的性能。后续的0.6.x版本将应用到其他的写操作以使得schema管理更为轻松，彻底避免spark-avro的转化。
bulk_insert模式：Hudi bulk_insert对输入进行排序以便优化文件大小并避免在并发写入DFS多分区时的内存溢出问题，对于想在写入Hudi之前就已经准备好DataFrame的用户，Hudi也提供了hoodie.bulkinsert.sort.mode配置项。
支持Cleaning与写入并发执行，开启hoodie.clean.async=true以减少commit过程的耗时；
Spark Streaming写入支持异步Compaction，可通过hoodie.datasource.compaction.async.enable进行配置。
支持通过marker文件进行Rollback，而不再对全表进行listing，设置hoodie.rollback.using.markers=true启用。
支持一种新的索引类型hoodie.index.type=SIMPLE，对于updates/deletes覆盖表大多数数据的场景，会比BLOOM_INDEX更快。
支持Azure Data Lake Storage V2， Alluxio 和 Tencent Cloud Object Storage
HoodieMultiDeltaStreamer 支持在单个DeltaStreamer中消费多个Kafka流，降低使用DeltaStreamer作为数据湖摄取工具时的运维负担。
新增新的工具类InitialCheckPointProvider，以便在迁移至DeltaStreamer后设置Checkpoint。
DeltaStreamer工具支持摄取CSV数据源，同时可chain多个transformers来构建更灵活的ETL作业。
引入新的Key生成器CustomKeyGenerator，对不同类型的Key、Partition路径提供更灵活的配置，另外在TimestampBasedKeyGenerator中还支持更多时间单位。更多详情请参考docs

3.2 查询端改进

从0.6.0版本开始，Spark DataSource支持MoR表的SNAPSHOT查询；
在之前版本中，对CoW表，Hudi仅仅支持HoodieCombineHiveInputFormat来确保对于任何查询都只会生成有限数量的mappers。Hudi现在对MoR表支持使用HoodieCombineInputFormat。
在HoodieROPathFilter中缓存MetaClient来加速Spark查询，这可以减少在S3上对Read-Optimized查询进行文件过滤的额外开销。

3.3 易用性提升

对Spark DAG赋名字以便更好的进行调试。
支持用户自定义可插拔指标报告者，另外内置Console，JMX，Prometheus，DataDog指标报告者。
新增Data Snapshot Exporter工具类，通过该工具类可将某一时刻的Hudi表导出为Parquet文件。
引入写入提交回调钩子，以便在Commit时可以通知增量pipelines，例如在新的commit到来后触发Apache Airflow作业。
支持通过CLI删除Savepoints。

新增命令 export instants来导出instant元数据。

4. 贡献者

感谢以下贡献者，排名不分先后

hddong, xushiyan, wangxianghu, shenh062326, prashantwason, bvaradar, vinothchandar, baobaoyeye, andreitaleanu, clocklear , linshan-ma, satishkotha, Trevor-zhang, pratyakshsharma, GuoPhilipse, nsivabalan, zhedoubushishi, umehrot2, lw309637554, DeyinZhong, zherenyu831, lamber-ken, garyli1019, bhasudha, n3nash, yihua, liujinhui1994, sreeram26, Yungthuis, cheshta2904, [leesf](

Apache Hudi 0.6.0版本重磅发布的更多相关文章

Apache Hudi 0.5.1版本重磅发布
历经大约3个月时间,Apache Hudi 社区终于发布了0.5.1版本,这是Apache Hudi发布的第二个Apache版本,该版本中一些关键点如下版本升级将Spark版本从2.1.0升级到2 ...
Apache Hudi 0.8.0版本重磅发布
1. 重点特性 1.1 Flink集成自从Hudi 0.7.0版本支持Flink写入后,Hudi社区又进一步完善了Flink和Hudi的集成.包括重新设计性能更好.扩展性更好.基于Flink状态索引 ...
Apache Hudi 0.7.0版本重磅发布
重点特性 1. Clustering 0.7.0版本中支持了对Hudi表数据进行Clustering(对数据按照数据特征进行聚簇,以便优化文件大小和数据布局),Clustering提供了更灵活地方式增 ...
Flutter 1.17版本重磅发布
Flutter 1.17 是2020年的第一个稳定版本,此版本包括iOS平台Metal支持(性能更快),新的Material组件,新的Network跟踪工具等等! 对所有人来说,今年是充满挑战的一年. ...
重磅！Vertica集成Apache Hudi指南
1. 摘要本文演示了使用外部表集成 Vertica 和 Apache Hudi. 在演示中我们使用 Spark 上的 Apache Hudi 将数据摄取到 S3 中,并使用 Vertica 外部表访 ...
官宣！ASF官方正式宣布Apache Hudi成为顶级项目
马萨诸塞州韦克菲尔德(Wakefield,MA)- 2020年6月 - Apache软件基金会(ASF).350多个开源项目和全职开发人员.管理人员和孵化器宣布:Apache Hudi正式成为Apac ...
Apache Hudi C位！云计算一哥AWS EMR 2020年度回顾
1. 概述成千上万的客户在Amazon EMR上使用Apache Spark,Apache Hive,Apache HBase,Apache Flink,Apache Hudi和Presto运行大规 ...
真香！PySpark整合Apache Hudi实战
1. 准备 Hudi支持Spark-2.x版本,你可以点击如下链接安装Spark,并使用pyspark启动 # pyspark export PYSPARK_PYTHON=$(which python ...
Apache Hudi异步Compaction方式汇总
本篇文章对执行异步Compaction的不同部署模型一探究竟. 1. Compaction 对于Merge-On-Read表,数据使用列式Parquet文件和行式Avro文件存储,更新被记录到增量文件 ...

随机推荐

iOS 高效灵活地配置可复用视图组件的主题
本文首发于 Ficow Shen's Blog,原文地址: iOS 高效灵活地配置可复用视图组件的主题. 内容概览前言如何配置主题? 如何更高效地配置主题? 面向协议/接口的方案 ...
Python time gmtime()方法
描述 Python time gmtime() 函数将一个时间戳转换为UTC时区(0时区)的struct_time,高佣联盟 www.cgewang.com 可选的参数sec表示从1970-1-1以来 ...
P6222 「简单题」加强版莫比乌斯反演线性筛积性函数
LINK:简单题以前写过弱化版的不过那个实现过于垃圾少预处理了一个东西. 这里写一个实现比较精细了. 最后可推出式子:\(\sum_{T=1}^nsum(\frac{n}{T})\sum_{x| ...
LeetCode刷题时引发的思考：Java中ArrayList存放的是值还是引用？
好好学习,天天向上本文已收录至我的Github仓库DayDayUP:github.com/RobodLee/DayDayUP,欢迎Star,更多文章请前往:目录导航前言今天我在刷LeetCode ...
Linux分布式机器设置机器名字
查看主机的名字: hostname 1.临时修改 [root@localhost datas]# hostname slaver 临时修改,重启服务器后就不生效了 [root@localhost da ...
Python基础教程，流程控制语句详解
1.程序结构计算机在解决问题时,分别是顺序执行所有语句.选择执行部分语句.循环执行部分语句,分别是:顺序结构.选择结构.循环结构.如下图: 很多人学习python,不知道从何学起.很多人学习pyth ...
《RabbitMQ》如何保证消息不被重复消费
一重复消息为什么会出现消息重复?消息重复的原因有两个:1.生产时消息重复,2.消费时消息重复. 1.1 生产时消息重复由于生产者发送消息给MQ,在MQ确认的时候出现了网络波动,生产者没有收到确认 ...
Alink漫谈(十七) ：Word2Vec源码分析之迭代训练
Alink漫谈(十七) :Word2Vec源码分析之迭代训练目录 Alink漫谈(十七) :Word2Vec源码分析之迭代训练 0x00 摘要 0x01 前文回顾 1.1 上文总体流程图 1 ...
Docker容器网络-实现篇
通常,Linux容器的网络是被隔离在它自己的Network Namespace中,其中就包括:网卡(Network Interface).回环设备(Loopback Device).路由表(Routi ...
CSS概述（二）
目录 CSS背景属性设置背景颜色 background-color 设置背景图像 background-image 设置背景重复 background-repeat 设置背景定位 backgroun ...

Apache Hudi 0.6.0版本重磅发布

1. 下载信息

2. 迁移指南

3. 重点特性

3.1 写入端改进

3.2 查询端改进

3.3 易用性提升

4. 贡献者

Apache Hudi 0.6.0版本重磅发布的更多相关文章

随机推荐

热门专题