一.方案背景 现阶段部分业务数据存储在HBase中,这部分数据体量较大,达到数十亿.大数据需要增量同步这部分业务数据到数据仓库中,进行离线分析,目前主要的同步方式是通过HBase的hive映射表来实现的.该种方式具有以下痛点: 需要对HBase表进行全表扫描,对HBase库有一定压力,同步数据同步速度慢. 业务方对HBase表字段变更之后,需要重建hive映射表,给权限维护带来一定的困难. 业务方对HBase表字段的变更无法得到有效监控,无法及时感知字段的新增,对数仓的维护带来一定的困难. 业务…