一.partition的划分问题 如何划分partition对block数据的收集有很大影响.如果需要根据block来加速task的执行,partition应该满足什么条件? 参考思路1:range partition 1.出处: IBM DB2 BLU:Google PowerDrill:Shark on HDFS 2.规则: range partition遵循三个原则:1.针对每一列进行细粒度的范围细分,防止数据倾斜和工作量倾斜:2.每一个partition分配的列是不同的:3.需要针对数据…