1.概述 在流数据应用场景中,往往会通过Flink消费Kafka中的数据,然后将这些数据进行结构化到HDFS上,再通过Hive加载这些文件供后续业务分析.今天笔者为大家分析如何使用Flink消费Kafka的数据后,将消费后的数据结构化到Hive数据仓库中. 2.内容 Hive能够识别很多类型的文件,其中包含Parquet文件格式.因此,我们只需要将Flink消费Kafka后的数据以Parquet文件格式生成到HDFS上,后续Hive就可以将这些Parquet文件加载到数据仓库中.具体流程图如下所