Flume以Kafka为Source,以Hive为Sink进行数据转存. 业务背景:公司要求将某四川城市的卡口数据实时接入大数据平台中,历史数据可以通过Hive进行Load,也就是增量数据的对接问题.现场设备采集卡口的数据量在400万左右,不多.设备数据采集后由数据对接人员塞到Kafak中. 思路:由Flume读取Kafka中的原数据,可以直接存入Hive中,也可以写入HDFS,再由Hive外部表加载.由于第一种不需要开发代码,只需配置,故采用了第一种. 常见问题处理 : 1.缺少jar包,特别…