概要 数据湖的业务场景主要包括对数据库.日志.文件的分析,而管理数据湖有两点比较重要:写入的吞吐量和查询性能,这里主要说明以下问题: 1.为了获得更好的写入吞吐量,通常把数据直接写入文件中,这种情况下会产生很多小的数据文件.虽然小文件的使用可以增加写入的并行度,且能够并行读取文件以提高读取速度,但会出现一个数据量很小,需要从多个小文件中读取数据,增加了很多IO. 2.数据按照进入数据湖的方式写入到文件中,在同一个文件上,数据局部性不是最佳的. 数据之间,与传入批次相关,相近的批次的数据会相关联,…