这一节我们将介绍使用DeltaStreamer工具从外部源甚至其他Hudi数据集摄取新更改的方法, 以及通过使用Hudi数据源的upserts加快大型Spark作业的方法. 对于此类数据集,我们可以使用各种查询引擎查询它们. 写操作 在此之前,了解Hudi数据源及delta streamer工具提供的三种不同的写操作以及如何最佳利用它们可能会有所帮助. 这些操作可以在针对数据集发出的每个提交/增量提交中进行选择/更改. UPSERT(插入更新) :这是默认操作,在该操作中,通过查找索引,首先将输…