业务场景大概是这样的,这里由两个hive表格,tableA 和 tableB, 格式内容都是这样的: uid cate1 cate2 在hive QL中,我们知道union有着自动去重的功能,但是那是真对几行内容完全一致的情况下才可以.现在我们要进行去重的情况是根据uid进行去重. 也就是说可能存在这种情况: 1234 老师 唱歌 1234 老师 跳舞 对于hive表格中的这两行数据我们只想要保留其中的一行. 针对这种情况,我们做的大致思路就是,取两个表格数据的时候同时人为加上一个flag,然后…