Apache Hudi Apache Hudi 在基于 HDFS/S3 数据存储之上,提供了两种流原语: 插入更新 增量拉取 一般来说,我们会将大量数据存储到HDFS/S3,新数据增量写入,而旧数据鲜有改动,特别是在经过数据清洗,放入数据仓库的场景.而且在数据仓库如 hive中,对于update的支持非常有限,计算昂贵.另一方面,若是有仅对某段时间内新增数据进行分析的场景,则hive.presto.hbase等也未提供原生方式,而是需要根据时间戳进行过滤分析. 在此需求下,Hudi可以提供这两种