对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分.Hive也是针对某一列进行桶的组织.Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中.所谓Hive中的分桶,实际就是指的MapReduce中的分区.根据Reduce的数量,分成不同个数的文件. 我们先准备我们将使用的分桶表的数据. 1,jack,2016/11/11 2,michael,2016/11/12 3,summer,2016/11/13 4,spring…