是的,最近国内云服务提供商腾讯云在其EMR-V2.2.0版本中优先集成了Hudi 0.5.1版本作为其云上的数据湖解决方案对外提供服务 Apache Hudi 在 HDFS 的数据集上提供了插入更新和增量拉取的流原语. 一般来说,我们会将大量数据存储到 HDFS,新数据增量写入,而旧数据鲜有改动,特别是在经过数据清洗,放入数据仓库的场景.而且在数据仓库如 hive 中,对于 update 的支持非常有限,计算昂贵.另一方面,若是有仅对某段时间内新增数据进行分析的场景,则 hive.presto.…